메뉴
BL
The Decoder 30일 전

미스트랄 신모델 미디엄 3.5, 채팅·추론·코딩 통합

IMP
8/10
핵심 요약

미스트랄(Mistral)이 채팅, 추론, 코딩 기능을 하나로 통합한 1,280억 파라미터의 신모델 '미디엄 3.5(Medium 3.5)'를 공개했습니다. 이번 발표에서는 클라우드 기반으로 버그 수정 등의 반복 업무를 자동 처리하는 코딩 에이전트 '바이브(Vibe)'의 업데이트와 이메일 및 캘린더와 연동되는 '르 샤크(Le Chat)'의 워크 모드 도입도 함께 이루어졌습니다. 이는 업계 트렌드에 맞춰 개별 모델들을 단일 통합 모델로 발전시켜 실무 작업 효율을 극대화했다는 점에서 중요합니다.

번역된 본문

미스트랄의 새로운 플래그십 모델, 미스트랄 미디엄 3.5는 기존에 채팅, 추론, 코드 생성 용도로 각각 분리되었던 모델들을 하나의 제품으로 통합했습니다. 이 프랑스 AI 기업은 개발자 도구인 바이브(Vibe)에 비동기식 클라우드 에이전트를 추가하고, 르 샤크(Le Chat)에도 새로운 에이전트 모드를 도입했습니다.

모델 카드에 따르면, 미스트랄 미디엄 3.5는 1,280억 개의 파라미터(parameters)와 25만 6,000개의 토큰(token) 컨텍스트 창(context window)을 갖춘 밀집 모델(dense model)입니다. '밀집(Dense)'이라는 것은 토큰이 생성될 때마다 1,280억 개의 모든 파라미터가 로드되고 활성화됨을 의미합니다. 이는 추론(inference) 비용을 비싸게 만들지만, 실행이 더 간단하고 실제 프로덕션 환경에서 안정적인 성능을 발휘하는 경향이 있습니다.

미스트랄은 더 저렴한 접근 방식이 있다는 것을 잘 알고 있습니다. 미스트랄 라지 3(Mistral Large 3)는 총 6,750억 개의 파라미터를 가진 MoE(Mixture of Experts) 구조를 사용하지만 토큰당 410억 개만 활성화합니다. 미스트랄 스몰 4(Mistral Small 4)는 1,190억 개의 파라미터 중 60억 개만 활성화합니다. 딥시크(Deepseek)나 큐웬(Qwen) 같은 경쟁사들은 유사한 품질에서 더 저렴한 추론 비용을 제공하는 MoE 방식을 최상위 모델에 도입해 왔습니다.

이러한 배경 속에서 새로운 플래그십을 순수 밀집 모델로 구축한 것은 보수적인 결정입니다. 추론 비용 최적화에는 불리하지만, 채팅, 추론, 코드 생성 및 에이전트 기능을 하나의 통합된 모델로 출시하기는 더 쉽습니다. 미스트랄에 따르면 이 모델은 4개의 GPU에서 자체 호스팅(self-hosted)될 수 있습니다. 하지만 실제로는 장비가 잘 갖춰진 데이터센터 외부의 대부분의 사용자에게는 여전히 접근성이 떨어질 수 있습니다.

추론 기능이 토글(Toggle)로 변경되고, 새로운 비전 인코더 제로 구축 이 모델은 개별 추론 모델을 분리하는 것에서 벗어나는 업계의 변화를 따르며, 대신 각 쿼리에 파라미터 형태로 추론 기능을 추가했습니다. 'reasoning_effort' 설정을 통해 빠른 응답 모드와 복잡한 에이전트 작업을 위한 무거운 모드 간 전환이 가능합니다. 또한 미스트랄은 가변적인 이미지 크기와 가로세로 비율을 처리하기 위해 비전 인코더(vision encoder)를 밑바닥부터 새롭게 재학습시켰습니다.

미스트랄의 자체 벤치마크에서 미디엄 3.5는 SWE-Bench Verified에서 77.6%, T3-Telecom에서 91.4%의 점수를 기록했습니다. 미스트랄은 이 모델이 르 샤크의 미디엄 3.1 및 마지스트랄(Magistral) 추론 모델, 그리고 바이브 CLI의 데브스트랄 2(Devstral 2)를 대체할 것이라고 밝혔습니다.

수정된 MIT 라이선스, Apache 2.0 대체 모델 가중치(weights)는 허깅페이스(Hugging Face)에서 다운로드할 수 있지만, 미스트랄이 이전에 사용하던 Apache 2.0 라이선스가 아닌 '수정된 MIT 라이선스(Modified MIT License)'하에 제공됩니다. 이 라이선스는 상업적 및 비상업적 사용을 모두 허용하지만, 매출이 높은 기업에 대해서는 예외 조항을 두고 있습니다. 이는 Apache 2.0 라이선스로 출시된 미스트랄 라지 3 및 스몰 4 모델과의 결별을 의미합니다. API를 통한 미디엄 3.5의 가격은 백만 입력 토큰당 1.50달러, 백만 출력 토큰당 7.50달러입니다.

코딩 에이전트, 개발 환경을 벗어나다 두 번째 발표는 모델 자체보다 개발자들에게 더 중요할 수 있습니다. 미스트랄의 코딩 도구인 바이브는 개발자의 감시 없이 클라우드에서 여러 원격 에이전트를 동시에 실행하는 기능을 갖추게 되었습니다. 로컬 세션은 기록, 작업 상태 및 승인 상태와 함께 클라우드로 원활하게 이전될 수 있으며, 각 에이전트는 격리된 샌드박스(sandbox) 내에서 실행되다가 작업이 완료되면 풀 리퀘스트(pull request)를 생성할 수 있습니다. 바이브는 깃허브(GitHub), 리니어(Linear), 지라(Jira), 센트리(Sentry), 슬랙(Slack), 팀즈(Teams) 등과 연동됩니다. 미스트랄은 모듈 리팩토링, 테스트 생성, 종속성 업그레이드 및 버그 수정과 같은 일상적인 반복 업무가 주요 활용 사례라고 설명했습니다.

원문 보기
원문 보기 (영어)
Mistral's new flagship Medium 3.5 folds chat, reasoning, and code into one model Jonathan Kemper View the LinkedIn Profile of Jonathan Kemper May 1, 2026 Mistral (Screenshot) Key Points Mistral has released Medium 3.5, a 128-billion-parameter AI model that handles chat, reasoning, and coding tasks using a dense architecture, along with a toggleable reasoning feature for more complex queries. The company's developer tool Vibe now includes asynchronous cloud agents that can independently handle routine tasks like bug fixes, running in isolated sandboxes with integrations for services such as GitHub and Slack. Mistral's AI assistant Le Chat introduces a "work mode" for multi-step workflows, connecting directly to emails and calendars through built-in connectors while requiring explicit user approval before carrying out any sensitive actions. Ask about this article… Search Mistral's new flagship, Mistral Medium 3.5, merges what used to be separate models for chat, reasoning, and code into a single product. The French company is also adding asynchronous cloud agents to its coding tool Vibe and giving Le Chat a new agent mode. Per the model card , Mistral Medium 3.5 is a dense model with 128 billion parameters and a 256,000-token context window. "Dense" means all 128 billion parameters get loaded and activated for every token generated. That makes inference expensive, but it's also simpler to run and tends to hold up better in production. Mistral knows there are cheaper approaches. Mistral Large 3 uses a Mixture of Experts (MoE) setup with 675 billion total parameters but only activates 41 billion per token. Mistral Small 4 has 119 billion parameters and activates just 6 billion. Competitors like Deepseek and Qwen have been moving their top models toward MoE for a while, since it delivers cheaper inference at similar quality. Ad Against that backdrop, building the new flagship as a pure dense model is a conservative call: less optimized for inference cost, but easier to ship as one unified model for chat, reasoning, code, and agents. Ad DEC_D_Incontent-1 Mistral says the model can be self-hosted on four GPUs. In practice, that's likely still out of reach for most users outside well-equipped data centers. Reasoning becomes a toggle, new vision encoder built from scratch The model follows the industry shift away from separate reasoning models, adding reasoning as a parameter on each query instead. A reasoning_effort setting switches between quick replies and a heavier mode for complex agent tasks. Mistral also retrained the vision encoder from scratch to handle variable image sizes and aspect ratios. Ad In Mistral's own benchmarks, Medium 3.5 scored 77.6 percent on SWE-Bench Verified and 91.4 percent on T3-Telecom. Mistral says the model replaces Medium 3.1 and the Magistral reasoning model in Le Chat, plus Devstral 2 in the Vibe CLI. Modified MIT replaces Apache 2.0 The weights are available for download on Hugging Face , but not under the Apache 2.0 license Mistral has used before. The company switched to a "Modified MIT License" that allows commercial and non-commercial use but carves out exceptions for high-revenue companies. That's a break from models like Mistral Large 3 and Small 4, which ship under Apache 2.0. Ad DEC_D_Incontent-2 Through the API, Medium 3.5 costs $1.50 per million input tokens and $7.50 per million output tokens. Ad Coding agents move out of the notebook The second announcement may matter more to developers than the model itself. Mistral's coding tool Vibe is getting remote agents that run in the cloud, several at once, without a developer watching over them. Local sessions can move to the cloud along with their history, task state, and approvals. Each agent runs in an isolated sandbox and can open a pull request when it's done. Vibe connects to GitHub, Linear, Jira, Sentry, Slack, and Teams. Mistral points to routine work like module refactors, test generation, dependency upgrades, and bug fixes as the main use cases. The cloud version is built on workflows from Mistral Studio, which the company originally developed internally and for enterprise customers. The idea isn't new. OpenAI, Anthropic, and Cursor already offer similar setups. Work Mode in Le Chat turns connectors on by default Mistral is also adding a Work Mode to Le Chat, which runs on Medium 3.5. It's built for multi-step tasks across multiple tools, like processing emails, messages, or calendar entries, or running structured searches. In Work Mode, connectors to mailboxes, calendars, documents, and other systems are on by default. That makes complex workflows easier to set up but puts more responsibility for data flows on the user. Le Chat asks for explicit confirmation before sensitive actions like sending a message or writing to external systems. Work Mode is available on the Pro, Team, and Enterprise plans. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: Mistral AI