메뉴

#MoE 아키텍처

TD
The Decoder 15일 전
IMP 8

AI 모델, 전문가 모듈 12.5%만으로도 최고 성능 근접 달성

앨런 AI 연구소와 UC 버클리 연구진이 개발한 'EMO' 모델은 문서 경계를 활용해 전문가(Expert)들이 특정 도메인(의료, 정치 등)을 전문적으로 학습하도록 유도합니다. 실험 결과, 전체 전문가 모듈의 12.5%만 남기고 제거해도 성능 하락이 약 3% 포인트에 그쳐 기존 MoE 모델들의 한계를 뛰어넘는 효율성을 입증했습니다. 이를 통해 스토리지 절약 및 특정 작업에 맞춘 모델의 유연한 배포가 가능해져 산업계에 큰 의미를 갖습니다.

AI 모델 MoE 아키텍처 EMO
HN
Hacker News 24일 전
IMP 8

10억 미만 파라미터로 딥시크 수학 성능 맞춘 ZAYA1-8B

Zyphra가 AMD GPU 클러스터로 훈련한 84억 MoE 모델 ZAYA1-8B는 7억 6천만 활성 파라미터로 DeepSeek-R1 수학 벤치마크를 상회하고, Claude Sonnet 4.5와 비견되는 성능을 보여줍니다. 이는 엔비디아 독점적 인프라 없이도 최첨단 AI 모델 개발이 가능하다는 것과 활성 파라미터를 극도로 줄이면서도 성능을 유지할 수 있다는 것을 증명합니다.

오픈소스 모델 MoE 아키텍처 AMD 인프라
LL
r/LocalLLaMA 24일 전
IMP 9

ZAYA1-8B: AMD GPU로 훈련된 최고 수준의 지능 밀도 모델

Zyphra가 AMD 인스틴트 MI300 클러스터에서 처음부터 학습된 MoE 아키텍처 기반의 'ZAYA1-8B' 모델을 공개했습니다. 10억 개 미만의 활성 파라미터를 활용함에도 불구하고 복잡한 추론, 수학, 코딩 벤치마크에서 자원 대비 최고 수준의 지능 밀도를 달성하며 Claude 4.5 Sonnet이나 Mistral-Small-4-119B 등 훨씬 큰 모델들을 능가하거나 필적하는 성능을 보여줍니다.

오픈소스 모델 AMD 인프라 MoE 아키텍처
HN
Hacker News 31일 전
IMP 8

IBM 그래니트 4.1, 8B 모델로 32B급 성능 달성

IBM이 기업용 오픈소스 언어 모델인 'Granite 4.1' 3B, 8B, 30B 세 가지 버전을 공개했습니다. 특히 8B(80억 파라미터) 모델은 복잡한 기법 없이도 기존 32B MoE 모델을 압도하는 벤치마크 성능을 기록하며 데이터 품질 중심의 훈련 파이프라인 혁신을 입증했습니다. 15조 개의 토큰과 5단계에 걸친 세밀한 학습, 512K 컨텍스트 윈도우 지원 등 실무적 활용도가 높아 업계에 중요한 시사점을 던집니다.

오픈소스 모델 IBM 데이터 품질