메뉴

#EMO

TD
The Decoder 15일 전
IMP 8

AI 모델, 전문가 모듈 12.5%만으로도 최고 성능 근접 달성

앨런 AI 연구소와 UC 버클리 연구진이 개발한 'EMO' 모델은 문서 경계를 활용해 전문가(Expert)들이 특정 도메인(의료, 정치 등)을 전문적으로 학습하도록 유도합니다. 실험 결과, 전체 전문가 모듈의 12.5%만 남기고 제거해도 성능 하락이 약 3% 포인트에 그쳐 기존 MoE 모델들의 한계를 뛰어넘는 효율성을 입증했습니다. 이를 통해 스토리지 절약 및 특정 작업에 맞춘 모델의 유연한 배포가 가능해져 산업계에 큰 의미를 갖습니다.

AI 모델 MoE 아키텍처 EMO
LL
r/LocalLLaMA 22일 전
IMP 7

AI2, 문서 수준 라우팅 기반 MoE 'EMO' 공개

Allen Institute for AI(AI2)가 1T 토큰으로 학습된 새로운 MoE(Mixture of Experts) 모델인 EMO(14B 전체 파라미터 중 1B 활성화)를 공개했습니다. 이 모델의 가장 큰 특징은 기존의 표면적 패턴이 아닌 건강, 뉴스 등 특정 도메인을 기준으로 문서 수준 라우팅(document-level routing)을 수행한다는 점입니다. 라우팅 방식의 이러한 혁신은 전문가 모델의 할당을 훨씬 더 정교하게 만들어 줍니다.

AI2 MoE 오픈소스