샤오미 MiMo 모델, 4시간 만에 컴파일러 자동 코딩
샤오미가 1.02조 개 매개변수를 장착한 오픈웨이트 혼합 전문가(MoE) 언어모델 MiMo-V2.5-Pro를 공개했습니다. 이 모델은 최대 100만 토큰을 처리하며, 내부 테스트에서 불과 4.3시간 만에 완전한 컴파일러를 자율적으로 작성했습니다. 서구권 경쟁 모델들과 비교해 40~60% 적은 토큰으로 동등한 수준의 성능을 발휘하며 뛰어난 효율성을 입증했습니다.
샤오미의 새로운 MiMo-V2.5-Pro는 내부 테스트에 따르면 5시간 미만으로 완전한 컴파일러를 작성했으며, 코딩 벤치마크에서 Anthropic의 Claude Opus 4.6에 근접한 성능을 기록했습니다. 이 오픈웨이트 모델은 서구권 경쟁사들보다 훨씬 적은 토큰을 소모하는 것으로 나타났습니다.
MiMo-V2.5-Pro는 혼합 전문가(MoE) 모델로, 요청 시 모델 전체가 아닌 일부만 활성화되어 작동합니다. 총 1.02조 개의 매개변수를 보유하고 있으며, 요청 당 420억 개의 매개변수가 활성화됩니다. MiMo 팀은 이 버전을 수 시간 동안 실행되고 수천 번의 도구 호출이 필요한 작업을 위해 특별히 설계했습니다. 컨텍스트 윈도우는 현재 가능한 최고 수준으로, 메인 버전은 한 번에 최대 100만 토큰을 처리할 수 있으며 재학습이 없는 기본 버전은 25만 6,000토큰까지 처리 가능합니다.
한 오후에 끝나는 컴파일러 샤오미는 이전 버전에 비해 가장 큰 도약을 세 가지 데모를 통해 선보였습니다. 첫 번째 데모에서 팀은 베이징대학교 강좌의 완전한 컴파일러 프로젝트를 모델에 구축하도록 지시했습니다. 샤오미에 따르면 이 작업은 일반적으로 컴퓨터 과학 학생에게 몇 주가 걸리는 과제입니다.
MiMo-V2.5-Pro는 672회의 도구 호출을 통해 4.3시간 만에 프로젝트를 마쳤으며, 숨겨진 테스트 스위트에서 233점 만점에 233점을 기록했습니다. 샤오미는 이 모델의 접근 방식이 가장 흥미로운 부분이라고 밝혔습니다. 모델은 먼저 전체 파이프라인을 스캐폴딩으로 구성한 다음, 각 단계를 계층별로 작업했습니다. 첫 번째 컴파일 시도에서 이미 233개 테스트 중 137개를 통과했습니다. 이후 리팩토링 과정에서 회귀 버그가 발생했으나, 모델이 스스로 이를 진단하고 수정했습니다.
두 번째 데모에서 MiMo-V2.5-Pro는 단 몇 개의 프롬프트만으로 약 8,000줄의 코드로 구성된 데스크톱 비디오 에디터를 작성했습니다. 모델은 11.5시간 동안 자율적으로 실행되며 약 1,870회의 도구 호출을 수행했습니다.
세 번째 데모에서는 Claude Code를 통해 모델을 회로 시뮬레이터에 연결하고 전압 조정기를 설계하도록 지시했습니다. 1시간 이내에 6개의 기술 사양을 모두 충족하는 결과를 얻었습니다. 이 중 4개 사양은 모델의 첫 번째 초안보다 약 한 자릿수(order of magnitude) 뛰어난 성능을 보였습니다.
적은 토큰으로 동등한 성능 달성 샤오미는 MiMo-V2.5-Pro를 주로 성능 대 토큰 비율 측면에서 강조하고 있습니다. 자체 ClawEval 에이전트 벤치마크에서 이 모델은 작업 실행 당 약 7만 토큰으로 64%의 점수를 기록했습니다. 팀에 따르면 이는 Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4가 비슷한 점수에 도달하는 데 필요한 토큰보다 40~60% 적은 수치입니다.
코딩 벤치마크에서 이 모델은 SWE-bench Verified에서 78.9점, SWE-Bench Pro에서 57.2점, Terminal-Bench 2.0에서 68.4점을 기록했습니다. 샤오미의 자체 MiMo Coding Bench에서는 73.7점을 받아 Claude Opus 4.6(77.1점)에 근접했으며 Gemini 3.1 Pro(67.8점)를 크게 앞섰습니다. 범용 에이전트 작업의 경우 GDPVal-AA에서 1,581 Elo 포인트, tau3-bench에서 72.9점을 기록했습니다.
이러한 발전은 긴 문맥 작업에서 가장 뚜렷하게 나타납니다. 모델이 복잡한 노드 그래프를 탐색하는 OpenAI의 GraphWalks 벤치마크에서 이전 버전인 MiMo-V2-Pro는 100만 토큰에서 점수가 0으로 떨어졌습니다. 반면 MiMo-V2.5-Pro는 동일한 길이에서 너비 우선 탐색에서 0.37, 부모 노드 쿼리에서 0.62를 기록했습니다. 이 모델은 이전 버전인 MiMo-V2-Flash의 기술적 기반을 계승했습니다. 샤오미에 따르면 로컬 및 글로벌 어텐션의 혼합은 긴 시퀀스의 메모리 요구량을 줄여줍니다.