메뉴
BL
r/LocalLLaMA 52일 전

메타, 개인용 초지능 추론 모델 '뮤즈 스파크' 공개

IMP
9/10
핵심 요약

메타 슈퍼인텔리전스 랩스(MSL)가 다중 모달 인식, 도구 사용, 에이전트 오케스트레이션을 지원하는 첫 번째 추론 모델인 '뮤즈 스파크(Muse Spark)'를 발표했습니다. 이 모델은 복잡한 문제를 병렬로 해결하는 'Contemplating(심층 사고) 모드'를 탑재하여 최첨단 AI 모델들과 경쟁할 수 있는 추론 성능을 보여줍니다. 또한 1,000명 이상의 의사와 협력하여 강화된 건강 관리 기능과 시각적 이해력을 갖추며 개인 맞춤형 초지능으로의 발돋움을 알렸습니다.

번역된 본문

제품 AI 연구 최신 소식 Llama 체험하기 Meta AI 체험하기 주요 기사

뮤즈 스파크(Muse Spark) 소개: 개인용 초지능으로의 확장 2026년 4월 8일 • 15분 소요 읽기

오늘 저희는 Meta Superintelligence Labs(메타 슈퍼인텔리전스 랩스)에서 개발한 Muse(뮤즈) 모델 패밀리의 첫 번째 모델인 Muse Spark를 발표하게 되어 매우 기쁩니다. Muse Spark는 도구 사용(Tool-use), 시각적 사고 체인(Visual Chain of Thought), 및 다중 에이전트 오케스트레이션(Multi-agent Orchestration)을 지원하는 네이티브 다중 모달(Natively multimodal) 추론 모델입니다. Muse Spark는 저희의 확장 로드맵에서 첫 번째 단계이자, AI 개발 노력을 근본적으로 전면 개편한 결과물입니다. 향후 확장을 지원하기 위해 저희는 연구 및 모델 학습부터 Hyperion 데이터 센터를 포함한 인프라에 이르기까지 전체 스택에 걸쳐 전략적인 투자를 진행하고 있습니다.

이 글에서는 먼저 Muse Spark의 새로운 기능과 응용 프로그램을 살펴보겠습니다. 이러한 결과를 확인한 후, 개인용 초지능을 향한 저희의 발전을 이끄는 확장 축(Scaling Axes)의 이면을 살펴보겠습니다. Muse Spark는 오늘 meta.ai와 Meta AI 앱에서 사용할 수 있습니다. 또한 선정된 사용자를 대상으로 비공개 API 프리뷰를 시작합니다.

개인용 초지능을 위한 기능 Muse Spark는 다중 모달 인식, 추론, 건강 및 에이전트(Agentic) 작업에서 경쟁력 있는 성능을 제공합니다. 장기적인 에이전트 시스템 및 코딩 워크플로우와 같이 현재 성능 격차가 있는 분야에 대해 저희는 계속해서 투자하고 있습니다. 더 큰 모델이 개발 중이며, 이러한 결과는 저희의 스택이 효과적으로 확장되고 있음을 보여줍니다.

또한 병렬로 추론하는 여러 에이전트를 조정하는 'Contemplating 모드(심층 사고 모드)'를 출시합니다. 이를 통해 Muse Spark는 Gemini Deep Think 및 GPT Pro와 같은 최첨단 모델의 극단적인 추론 모드와 경쟁할 수 있습니다. Contemplating 모드는 까다로운 작업에서 상당한 기능 향상을 제공하여 'Humanity's Last Exam(인류의 마지막 시험)'에서 58%, 'FrontierScience Research(프론티어 사이언스 리서치)'에서 38%를 달성했습니다. Muse Spark는 현재 사용 가능하며, Contemplating 모드는 meta.ai에서 점진적으로 도입될 예정입니다.

평가에 대한 자세한 내용은 방법론 문서를 참조하십시오.

응용 프로그램 Muse Spark는 사용자의 세계를 이해하는 개인용 초지능을 향한 첫 걸음입니다. 즉각적인 환경 분석부터 웰빙 지원까지, Muse Spark의 고급 추론 기능은 강력하고 매우 개인화된 사용 사례를 가능하게 합니다.

멀티모달(Multimodal). Muse Spark는 다양한 도메인과 도구에 걸쳐 시각적 정보를 통합하도록 처음부터 설계되었습니다. 시각적 STEM(이공계열) 질문, 엔티티 인식 및 위치 추적에서 탁월한 성능을 발휘합니다. 이러한 기능은 재미있는 미니 게임을 만들거나 동적 주석을 통해 가전 제품의 문제를 해결하는 것과 같은 대화형 경험을 가능하게 합니다.

건강(Health). 개인용 초지능의 주요 응용 분야 중 하나는 사람들이 자신의 건강에 대해 알아보고 개선하도록 돕는 것입니다. Muse Spark의 건강 추론 기능을 향상시키기 위해 1,000명 이상의 의사와 협력하여 보다 사실적이고 포괄적인 응답을 가능하게 하는 학습 데이터를 큐레이션했습니다. Muse Spark는 다양한 음식의 영양 성분이나 운동 중 활성화되는 근육과 같은 건강 정보를 분석하고 설명하는 대화형 디스플레이를 생성할 수 있습니다.

확장 축(Scaling Axes) 개인용 초지능을 구축하려면 모델의 기능을 예측 가능하고 효율적으로 확장할 수 있어야 합니다. 아래에서는 사전 학습(Pretraining), 강화 학습(Reinforcement Learning), 테스트 시간 추론(Test-time Reasoning)이라는 세 가지 축을 따라 Muse Spark의 확장 속성을 연구하고 추적하는 방법을 공유합니다.

사전 학습(Pretraining). 사전 학습 단계는 Muse Spark가 핵심 다중 모달 이해, 추론 및 코딩 능력을 습득하는 단계로, 강화 학습과 테스트 시간 컴퓨팅이 구축되는 기반입니다. 지난 9개월 동안 모델 아키텍처, 최적화 및 데이터 큐레이션을 개선하여 사전 학습 스택을 재구축했습니다. 이러한 발전을 함께 결합하면 모든 컴퓨팅 단위에서 추출할 수 있는 성능이 향상됩니다. 새로운 레시피를 엄격하게 평가하기 위해 일련의 소규모 모델에 확장 법칙(Scaling Law)을 적용하고 특정 수준의 성능에 도달하는 데 필요한 학습 FLOPs를 비교했습니다. 그 결과는 명확합니다: 저희는 [원문 여기서 끊김]

원문 보기
원문 보기 (영어)
Products AI Research The Latest About Get Llama Try Meta AI FEATURED Introducing Muse Spark: Scaling Towards Personal Superintelligence April 8, 2026 • 15 minute read Today, we’re excited to introduce Muse Spark, the first in the Muse family of models developed by Meta Superintelligence Labs. Muse Spark is a natively multimodal reasoning model with support for tool-use, visual chain of thought, and multi-agent orchestration. Muse Spark is the first step on our scaling ladder and the first product of a ground-up overhaul of our AI efforts. To support further scaling, we are making strategic investments across the entire stack — from research and model training to infrastructure, including the Hyperion data center. In this post, we'll first explore Muse Spark's new capabilities and applications. After these results, we’ll look behind the curtain at the scaling axes driving our progress toward personal superintelligence. Muse Spark is available today at meta.ai and the Meta AI app. We’re opening a private API preview to select users. Capabilities for Personal Superintelligence Muse Spark offers competitive performance in multimodal perception, reasoning, health, and agentic tasks. We continue to invest in areas with current performance gaps, such as long-horizon agentic systems and coding workflows. With larger models in development, these results demonstrate that our stack is scaling effectively. We’re also releasing Contemplating mode, which orchestrates multiple agents that reason in parallel. This allows Muse Spark to compete with the extreme reasoning modes of frontier models such as Gemini Deep Think and GPT Pro. Contemplating mode provides significant capability improvements in challenging tasks, achieving 58% in Humanity’s Last Exam and 38% in FrontierScience Research. Muse Spark is available now, and Contemplating mode will be rolling out gradually in meta.ai . *For more details about our evaluations, see our methodology document . Applications Muse Spark is the first step toward a personal superintelligence that understands your world. From analyzing your immediate environment to supporting your wellness, the advanced reasoning capabilities of Muse Spark enable powerful, highly personal use cases. Multimodal. Muse Spark is built from the ground up to integrate visual information across domains and tools. It achieves strong performance on visual STEM questions, entity recognition, and localization. These capabilities come together to enable interactive experiences like creating fun minigames or troubleshooting your home appliances with dynamic annotations. Health. One major application of personal superintelligence is to help people learn about and improve their health. To improve Muse Spark's health reasoning capabilities, we collaborated with over 1,000 physicians to curate training data that enables more factual and comprehensive responses. Muse Spark can generate interactive displays that unpack and explain health information such as the nutritional content of various foods or muscles activated during exercise. Scaling Axes To build personal superintelligence, our model’s capabilities should scale predictably and efficiently. Below, we share how we study and track Muse Spark's scaling properties along three axes: pretraining, reinforcement learning, and test-time reasoning. Pretraining . The pretraining phase is where Muse Spark acquires its core multimodal understanding, reasoning, and coding abilities — the foundation that reinforcement learning and test-time compute build upon. Over the last nine months, we rebuilt our pretraining stack with improvements to model architecture, optimization, and data curation. Together, these advancements increase the capability we can extract from every unit of compute. To rigorously evaluate our new recipe, we fit a scaling law to a series of small models and compare the training FLOPs required to hit a specific level of performance. The results are clear: we can reach the same capabilities with over an order of magnitude less compute than our previous model, Llama 4 Maverick. This improvement also makes Muse Spark significantly more efficient than the leading base models available for comparison. Reinforcement Learning. After pretraining, reinforcement learning (RL) leverages compute to scalably amplify model capabilities. Even though large-scale RL is notoriously prone to instability, our new stack delivers smooth, predictable gains. The plots below show the benefits of scaling RL compute (measured in steps) for Muse Spark. On the left, we see log-linear growth in pass@1 and pass@16 (at least one success across 16 attempts) on the training data. This indicates that RL is improving model reliability without compromising reasoning diversity. On the right, accuracy growth on a held-out evaluation set establishes that the gains from RL predictably generalize: Muse Spark smoothly improves on tasks that were not seen in training. Test-Time Reasoning. RL trains our models to "think" before they answer — a process known as test-time reasoning. Serving this capability to billions of users requires efficient use of reasoning tokens. To achieve this, we rely on two key levers: thinking time penalties to optimize token use, and multi-agent orchestration that boosts performance without slowing down response times. To deliver the most intelligence per token, our RL training maximizes correctness subject to a penalty on thinking time. On a subset of evaluations such as AIME, this causes a phase transition. After an initial period where the model improves by thinking longer, the length penalty causes thought compression — Muse Spark compresses its reasoning to solve problems using significantly fewer tokens. After compressing, the model again extends its solutions to achieve stronger performance. To spend more test-time reasoning without drastically increasing latency, we can scale the number of parallel agents that collaborate to solve hard problems. The figure below illustrates the benefits of this approach. While standard test-time scaling has a single agent think for longer, scaling Muse Spark with multi-agent thinking enables superior performance with comparable latency. Safety Muse Spark has broad reasoning capabilities across dual-use scientific domains, so we conducted extensive safety evaluations before deployment. Our process follows the updated Advanced AI Scaling Framework , which defines threat models, evaluation protocols, and deployment thresholds for our most advanced models. We evaluated Muse Spark both before and after applying safety mitigations across frontier risk categories, behavioral alignment, and adversarial robustness. We found that Muse Spark demonstrates strong refusal behavior across high-risk domains such as biological and chemical weapons, enabled by pretraining data filtering, safety-focused post-training, and system-level guardrails. In the Cybersecurity and Loss of Control domains, Muse Spark does not exhibit the autonomous capability or hazardous tendencies needed to realize threat scenarios. Our evaluations show Muse Spark falls within safe margins across all frontier risk categories we measured given its deployment context. Full results will be available in our upcoming Safety & Preparedness Report. In third-party evaluations on a near-launch checkpoint, Apollo Research found that Muse Spark demonstrated the highest rate of evaluation awareness of models they have observed. The model frequently identified scenarios as "alignment traps" and reasoned that it should behave honestly because it was being evaluated. This matters because models that recognize evaluation contexts may behave differently during testing than in deployment. However, these results do not confirm that awareness directly alters behavior, and our own follow-up investigation found initial evidence that evaluation awareness may affect model behavior on a small subset of alignment ev