BL
r/LocalLLaMA • 22일 전
AI2, 문서 수준 라우팅 기반 MoE 'EMO' 공개
IMP 7/10
핵심 요약
Allen Institute for AI(AI2)가 1T 토큰으로 학습된 새로운 MoE(Mixture of Experts) 모델인 EMO(14B 전체 파라미터 중 1B 활성화)를 공개했습니다. 이 모델의 가장 큰 특징은 기존의 표면적 패턴이 아닌 건강, 뉴스 등 특정 도메인을 기준으로 문서 수준 라우팅(document-level routing)을 수행한다는 점입니다. 라우팅 방식의 이러한 혁신은 전문가 모델의 할당을 훨씬 더 정교하게 만들어 줍니다.
번역된 본문
AI2의 새로운 MoE 모델 발표 - EMO, 1T 토큰으로 학습된 1B-활성/14B-전체(1b-active/14b-total) 규모.
가장 흥미로운 점은 문서 수준 라우팅(document-level routing)입니다. 전문가(Experts)들이 단순한 표면적 패턴 대신 건강, 뉴스 등 특정 도메인을 중심으로 클러스터링 됩니다.
원문 보기 (영어)
new MoE release from ai2 - EMO, 1b-active/14b-total trained on 1t tokens
interesting thing is document-level routing. experts cluster around domains like health, news, etc. instead of surface patterns
models: [https://huggingface.co/collections/allenai/emo](https://huggingface.co/collections/allenai/emo)