#혼합 전문가(MoE)

오픈마이토스: 770M 파라미터로 1.3B 모델 맞먹는 성능 구현

오픈소스 프로젝트 '오픈마이토스(OpenMythos)'는 클로드 마이토스(Claude Mythos) 아키텍처를 반복-깊이 트랜스포머(RDT) 이론에 기반해 코드로 처음 재구현한 결과물입니다. 이 모델은 동일한 가중치를 여러 번 반복 적용해 연산 깊이를 확보하는 방식을 사용하여, 770M 파라미터라는 적은 크기로도 1.3B 파라미터를 가진 기존 트랜스포머와 동등한 성능을 냅니다. 완전한 오픈소스로 공개되어 AI 아키텍처 설계의 새로운 가능성을 제시한다는 점에서 큰 의미를 갖습니다.

대형 언어 모델 오픈소스 트랜스포머 아키텍처

The Decoder • 108일 전

IMP 8

에이시 AI, 자본금 절반 투자해 오픈소스 에이전트 모델 공개

미국 스타트업 Arcee AI는 전체 벤처캐피탈의 절반인 약 2천만 달러를 투자하여 4천억 파라미터 규모의 오픈소스 추론 모델인 'Trinity-Large-Thinking'을 공개했습니다. 이 모델은 에이전트 작업 벤치마크에서 클로드 오푸스(Claude Opus)에 필적하는 성능을 보여주며, 중국 모델들이 장악한 오픈소스 LLM 시장의 판도를 바꿀 잠재력을 가졌습니다. 기술적으로는 토큰당 4개의 전문가 모듈만 활성화해 연산 효율을 높였고, 학습 불안정성을 해결하기 위한 새로운 전문가 분산 방식(SMEBU)을 도입한 것이 특징입니다.

오픈소스 모델 에이전트 혼합 전문가(MoE)