리퀴드 AI, 38T 토큰 학습 8B MoE 모델 공개
리퀴드 AI는 엣지 환경에 최적화된 혼합 전문가(MoE) 구조의 새로운 언어 모델 'LFM2.5-8B-A1B'를 발표했습니다. 이번 모델은 기존 대비 3배 이상 확장된 38조 개의 토큰으로 사전 학습되었으며, 컨텍스트 윈도우가 128K로 늘어났고 추론 성능이 대폭 향상되었습니다. 특히 어휘량을 두 배로 늘려 비 라틴어권 언어의 토크나이징 효율을 높이고, 대규모 강화 학습을 적용해 가벼운 소비자용 하드웨어에서도 강력한 온디바이스 성능을 발휘하는 것이 가장 큰 특징입니다.
오늘 저희는 소비자용 하드웨어에서 빠르고 안정적인 도구 호출(Tool calling)을 위해 구축된 엣지 모델인 LFM2.5-8B-A1B를 공개합니다. 이 모델은 2025년 10월에 발표된 LFM2-8B-A1B를 기반으로, 확장된 128K 컨텍스트 윈도우, 대폭 확장된 사전 학습(12조 개에서 38조 개 토큰으로 증가), 그리고 대규모 강화 학습을 적용했습니다. 또한 비 라틴어 계열 언어에 대한 토크나이징 효율성을 높이기 위해 어휘량을 두 배로 늘렸습니다. 그 결과, 여러 도구 호출을 연계하여 작업을 수행하고 입문급 노트북에서도 부담 없이 실행되는 모델이 탄생했습니다.
베이스 모델(LFM2.5-8B-A1B-Base)과 사후 학습된 모델(LFM2.5-8B-A1B)은 오늘부터 허깅페이스(Hugging Face) 및 저희 플레이그라운드(Playground)에서 사용할 수 있습니다. 로컬 환경에서 모델을 실행하고 파인튜닝하는 방법에 대한 자세한 내용은 공식 문서를 확인해 주세요.
하이라이트
- 온디바이스 개인 비서: 실제 애플리케이션 구동, 복잡한 명령어 수행 및 여러 도구 호출 연계를 모든 기기에서 지원하도록 설계되었습니다.
- 압축된 성능: 명령어 준수 및 에이전트 작업에서 훨씬 더 큰 규모의 일반 밀집(Dense) 모델 및 MoE 모델들과 경쟁할 수 있는 성능을 자랑합니다.
- 비교할 수 없는 처리량: CPU 및 GPU 추론 모두에서 동급 크기 모델 중 가장 빠르며, 첫날부터 llama.cpp, MLX, vLLM, SGLang을 지원합니다.
LFM2-8B-A1B 이후 변경된 점 이전 버전과 비교하여 새 버전은 컨텍스트 윈도우를 32,768개에서 128,000개 토큰으로 확장했습니다. 이를 통해 모델이 더 긴 문서를 처리하고 더 오래 추론할 수 있게 되었습니다. 비 라틴 문자를 더 효율적으로 토큰화하기 위해 어휘 크기 역시 65,536개에서 128,000개로 증가했습니다. 특히 힌디어, 태국어, 베트남어, 인도네시아어, 아랍어에서 눈에 띄는 압축 효율 향상을 확인했습니다. 나머지 아키텍처는 하단 그림과 같이 LFM2-8B-A1B와 동일하게 MoE, GQA, 게이팅된 짧은 컨볼루션 블록(Gated Short Convolution Blocks)의 조합을 따릅니다.
이전 버전과 달리, LFM2.5-8B-A1B는 순수 추론(Reasoning-only) 모델로, 최종 답변을 내놓기 전에 명시적인 사고 연결 고리(Chain of Thought)를 생성합니다. MoE 모델은 일반적으로 연산 제약 환경에서 실행되며, 적은 수의 활성 파라미터가 각 추론 토큰의 비용을 저렴하게 만들기 때문에 저희는 이 전략을 채택했습니다. 이는 속도 저하 없이 품질을 크게 향상시킵니다.
추론 기능 도입과 학습 규모 확장 덕분에 새 버전은 다음과 같이 눈에 띄게 향상된 성능을 보여줍니다:
[벤치마크 비교 표] AA-Omniscience Index: -78.42 → -24.70 (+53.62) AA-Omniscience Accuracy: 7.33 → 8.67 (+1.34) AA-Omniscience Non-Hallucination Rate(환각 미발생률): 7.46 → 63.47 (+56.01) IFEval: 79.44 → 91.84 (+12.40) IFBench: 26.00 → 56.47 (+30.47) Multi-IF: 58.54 → 79.93 (+21.39) MATH500: 74.80 → 88.76 (+13.96) AIME25: 20.00 → 42.53 (+22.53) BFCLv3: 45.07 → 64.36 (+19.29) BFCLv4: 25.52 → 48.50 (+22.98) Tau² Telecom: 13.60 → 88.07 (+74.47) Tau² Retail: 7.02 → 39.82 (+32.80)
학습 하이라이트
- 토크나이저 확장: LFM2-8B-A1B는 초기 언어 지원 범위에 맞춰 최적화된 65K BPE 토크나이저로 학습되었습니다. LFM2.5에서 비 라틴 문자를 더 잘 지원하기 위해 모델을 처음부터 다시 학습하는 대신 기존 토크나이저를 그대로 확장하여 어휘량을 128K로 두 배 늘렸습니다. 다국어 코퍼스에서 기존 병합(Merge) 작업을 이어서 BPE 병합 학습을 진행했습니다. 이를 통해 기존 토큰 ID의 대부분을 동일하게 유지하고, 모든 새 토큰이 원래 하위 토큰(Sub-token)의 시퀀스로 결정론적으로 분해되도록 만들었습니다. 새로운 임베딩 행(Row)은 하위 토큰 분해 결과의 평균으로 초기화하고 공유 행은 변경하지 않고 그대로 복사했습니다. 이후 임베딩 전용 학습, 전체 모델 지속 사전 학습이라는 두 단계의 짧은 적응 과정을 거쳐 모델의 품질을 복원했습니다.
하단 표는 언어별 chars/token(각 토큰이 담고 있는 텍스트의 양)을 보여줍니다. 수치가 높을수록 좋으며, 새로운 토크나이저는 16개 언어 모두에서 더 높은 효율성을 보여줍니다.
[언어별 토크나이저 효율성 비교] 아랍어, 독일어, 영어, 스페인어, 프랑스어, 힌디어, 인도네시아어, 이탈리아어, 일본어, 한국어, 폴란드어, 포르투갈어, 러시아어, 태국어, 베트남어, 중국어