메뉴

#MoE

HN
Hacker News 13시간 전
IMP 8

로터리 GPU: 제한된 VRAM 환경에서의 대규모 MoE 모델 로컬 실행 탐구

이 논문은 VRAM이 8GB에 불과한 소비자용 노트북에서 약 350억 파라미터 규모의 대규모 MoE 모델을 로컬 환경에서 실행할 수 있는 '로터리 GPU' 기법을 제안합니다. 실험 결과, 약 6.3GB의 VRAM만 사용하면서도 초당 21.06 토큰의 디코딩 처리량을 달성하며 뛰어난 메모리 효율성을 입증했습니다. 이는 클라우드 인프라에 의존하기 어려운 하드웨어, 보안, 예산 제약이 있는 환경에서도 거대 언어 모델(LLM)을 효과적으로 활용할 수 있는 가능성을 제시한다는 점에서 매우 중요합니다.

로컬-LLM MoE 메모리-최적화
MP
MarkTechPost 2일 전
IMP 6

리퀴드 AI, 128K 컨텍스트 지원 온디바이스 MoE 모델 공개

리퀴드 AI는 일반 소비자용 하드웨어에서도 구동 가능한 온디바이스용 MoE 모델인 LFM2.5-8B-A1B를 발표했습니다. 이 모델은 총 83억 개(8.3B)의 파라미터를 보유하고 있으면서도 연산 시 15억 개(1.5B)만 활성화하여 효율적인 추론을 자랑합니다. 최대 12만 8천(128K) 토큰의 긴 컨텍스트 처리와 고급 추론, 그리고 도구 호출(Tool calling) 기능을 지원하는 것이 특징입니다.

온디바이스 AI MoE 리퀴드 AI
MP
MarkTechPost 9일 전
IMP 8

코히어, H100 2개로 구동되는 218B 에이전트형 모델 공개

코히어(Cohere)가 기업용 에이전트 워크플로우에 최적화된 218B 매개변수의 오픈소스 MoE 모델 'Command A+'를 공개했습니다. 이 모델은 추론, 검색 증강 생성(RAG), 다국어 및 멀티모달 문서 처리 능력을 하나로 통합했으며, 최소 H100 GPU 2대만으로도 실행 가능해 현업 AI 실무자들에게 매우 효율적인 선택지가 됩니다.

대형 언어 모델 에이전트 AI 오픈소스
LL
r/LocalLLaMA 10일 전
IMP 8

코히어, 오픈소스 초고속 MoE 모델 'Command A+' 공개

코히어(Cohere)의 공동 창업자 닉 프로스트가 첫 번째 MoE(Mixture of Experts) 아키텍처 기반 모델인 'Command A+'를 공개했습니다. 이 모델은 소규모 팀과 개발자도 쉽게 에이전트를 구축할 수 있도록 실용성과 효율성을 극대화하여, 단 1~2개의 GPU 환경에서도 매우 빠르고 반응성 높게 구동되는 것이 가장 큰 특징입니다. 기업 중심의 서비스 모델을 유지하면서도 혁신을 이끄는 오픈소스 커뮤니티의 피드백을 반영하기 위해 Apache 2.0 라이선스로 전격 공개되었다는 점이 산업계 관계자들에게 주목받고 있습니다.

Cohere Command A+ MoE
LL
r/LocalLLaMA 22일 전
IMP 7

AI2, 문서 수준 라우팅 기반 MoE 'EMO' 공개

Allen Institute for AI(AI2)가 1T 토큰으로 학습된 새로운 MoE(Mixture of Experts) 모델인 EMO(14B 전체 파라미터 중 1B 활성화)를 공개했습니다. 이 모델의 가장 큰 특징은 기존의 표면적 패턴이 아닌 건강, 뉴스 등 특정 도메인을 기준으로 문서 수준 라우팅(document-level routing)을 수행한다는 점입니다. 라우팅 방식의 이러한 혁신은 전문가 모델의 할당을 훨씬 더 정교하게 만들어 줍니다.

AI2 MoE 오픈소스
TD
The Decoder 28일 전
IMP 8

샤오미 MiMo 모델, 4시간 만에 컴파일러 자동 코딩

샤오미가 1.02조 개 매개변수를 장착한 오픈웨이트 혼합 전문가(MoE) 언어모델 MiMo-V2.5-Pro를 공개했습니다. 이 모델은 최대 100만 토큰을 처리하며, 내부 테스트에서 불과 4.3시간 만에 완전한 컴파일러를 자율적으로 작성했습니다. 서구권 경쟁 모델들과 비교해 40~60% 적은 토큰으로 동등한 수준의 성능을 발휘하며 뛰어난 효율성을 입증했습니다.

샤오미 오픈소스 모델 자율 코딩
LL
r/LocalLLaMA 32일 전
IMP 7

미스트랄 미디움 모델 곧 공개

미스트랄(Mistral)의 소형 모델 버전명이 'Mistral-Small-4-119B-2603'로 확인되었습니다. 곧 출시될 미스트랄 미디움 모델은 128B(1,280억) 개의 매개변수를 탑재할 것으로 예상됩니다. 이 모델이 완전 연결(Dense) 구조를 채택할지, 아니면 소형 모델보다 덜 희소한 MoE(Mixture of Experts) 구조를 적용할지가 업계의 주요 관심사입니다.

미스트랄 LLM AI 모델
LL
r/LocalLLaMA 44일 전
IMP 8

알리바바 '큐웬3.6-35B-A3B' 오픈소스 공개

알리바바가 총 350억(35B) 파라미터 규모에 실제 활성 파라미터는 30억(3B)에 불과한 희소 MoE(Sparse MoE) 기반의 초경량 모델 '큐원3.6-35B-A3B'를 오픈소스로 공개했습니다. 자신보다 활성 파라미터가 10배나 큰 모델들과 맞먹는 수준의 에이전트 코딩(Agentic Coding) 능력과 강력한 멀티모달 추론 성능을 제공하는 것이 가장 큰 특징입니다. 실무자 입장에서 적은 컴퓨팅 자원으로도 고성능을 발휘할 수 있는 획기적인 오픈소스 AI 대안으로 평가받고 있습니다.

오픈소스 큐원(Qwen) MoE