#MoE

주요 오픈소스 초거대 AI 3종 비교 분석

글로벌 IT 업계가 주목하는 3대 오픈소스 초거대 모델(Kimi K3, DeepSeek V4 Pro, GLM-5.2)의 성능, 라이선스 정책, 그리고 실제 운영 비용을 비교 분석했습니다. AI 실무자들은 이를 통해 자체 서비스에 도입할 최적의 모델(MoE 방식)을 선정하고 인프라 비용을 예측할 수 있습니다.

오픈소스 AI모델 MoE

Hacker News • 17일 전

IMP 7

맥 스튜디오에서 대규모 AI 모델 구동을 위한 3가지 버그 수정

M3 맥 스튜디오 얼트라 환경에서 5만 토큰 이상의 긴 대화 컨텍스트를 처리할 때 첫 토큰 생성까지 수 분이 걸리던 치명적인 지연 문제를 해결한 사례입니다. 저자는 DS4 Flash 모델에서 지연 시간이 더 짧은 Qwen 3.5 122B로 교체하고, 하이브리드 어텐션 구조로 인한 캐시 메모리 누수 등 서빙 스택의 버그 3가지를 직접 수정하여 로컬 환경에서도 실사용이 가능한 에이전트 코딩 환경을 구축했습니다. 로컬 LLM 최적화 및 Mac 하드웨어 활용에 관심 있는 개발자들에게 매우 유용한 기술적 인사이트를 제공합니다.

로컬 LLM 맥 스튜디오 추론 최적화

MarkTechPost • 20일 전

IMP 7

엔비디아, 압축형 하이브리드 MoE LLM 출시

엔비디아가 기존 모델 대비 서버 처리량을 2배 이상 향상한 압축형 하이브리드 전문가 혼합(MoE) 대형 언어 모델을 공개했습니다. 이 모델은 하드웨어에 최적화된 구조적 압축과 지식 증류 기술을 활용하여 총 파라미터와 활성 파라미터 수를 줄이면서도 사용자별 응답 속도는 유지합니다. 결과적으로 동일한 하드웨어 환경에서 처리할 수 있는 동시 사용자 수와 전체 서버 효율성을 극대화할 수 있어, AI 인프라 운영 비용 절감 및 확장성 측면에서 매우 중요합니다.

엔비디아 대형언어모델 모델압축

MarkTechPost • 22일 전

IMP 9

텐센트, 295B 매개변수 MoE 모델 'Hy3' 공개

텐센트의 Hy팀이 총 295B 크기의 매개변수 중 토큰당 21B만 사용하는 효율적인 MoE(Mixture-of-Experts) 아키텍처 기반의 'Hy3' 모델을 오픈소스로 공개했습니다. 이 모델은 256K의 긴 컨텍스트 창과 강력한 추론 능력을 갖추고 있어 코딩 및 에이전트 업무 수행에 매우 유용하며, 2026년 7월까지 OpenRouter에서 무료로 테스트할 수 있습니다.

텐센트 대형언어모델 오픈소스

The Decoder • 22일 전

IMP 8

텐센트, 활성 크기의 5배 모델과 맞먹는 Hy3 오픈소스 공개

텐센트가 총 295B(활성 21B) 파라미터의 MoE 아키텍처 기반 오픈소스 AI 모델인 Hy3를 공개했습니다. 이 모델은 자신보다 2~5배 큰 모델들과 동등한 성능을 보이며, 환각률을 5.4%로 낮춘 것이 특징입니다. 아파치 2.0 라이선스로 상업적 사용이 가능해 AI 실무자와 개발자들에게 중요한 대안이 될 것으로 보입니다.

오픈소스 텐센트 MoE

MarkTechPost • 34일 전

IMP 8

바이두, 장문서 처리에 최적화된 30억 매개변수 OCR 모델 공개

바이두가 단 한 번의 순전파로 수십 페이지 문서를 파싱할 수 있는 30억 매개변수 MoE 구조의 오픈소스 OCR 모델을 공개했습니다. 핵심 기술인 참조 슬라이딩 윈도우 어텐션(R-SWA)이 KV 캐시를 일정하게 유지하여, 출력이 길어져도 메모리와 지연 시간이 증가하지 않는 획기적인 장점이 있습니다. 성능 면에서도 기존 DeepSeek OCR 대비 6.22포인트가 높은 93.23점을 기록하며 장문서 처리 분야의 큰 기술적 진전을 보여줍니다.

OCR 바이두 오픈소스

Hacker News • 47일 전

IMP 8

코히어, 3B 활성 파라미터 코딩 모델 오픈소스 공개

코히어(Cohere)가 개발자를 위한 첫 번째 에이전트 기반 코딩 모델인 'North Mini Code'를 오픈소스로 공개했습니다. 총 30B(300억) 파라미터 중 3B(30억)만 사용하는 MoE(Mixture-of-Experts) 구조를 채택하여, 가벼운 하드웨어로도 강력한 소프트웨어 개발 성능을 발휘합니다. 개발자들이 특정 클라우드 업체에 종속되지 않고 자체 인프라에서 유연하게 AI 코딩 에이전트를 운영할 수 있다는 점에서 의미가 큽니다.

오픈소스 코딩 에이전트 AI 모델

Hacker News • 59일 전

IMP 8

로터리 GPU: 제한된 VRAM 환경에서의 대규모 MoE 모델 로컬 실행 탐구

이 논문은 VRAM이 8GB에 불과한 소비자용 노트북에서 약 350억 파라미터 규모의 대규모 MoE 모델을 로컬 환경에서 실행할 수 있는 '로터리 GPU' 기법을 제안합니다. 실험 결과, 약 6.3GB의 VRAM만 사용하면서도 초당 21.06 토큰의 디코딩 처리량을 달성하며 뛰어난 메모리 효율성을 입증했습니다. 이는 클라우드 인프라에 의존하기 어려운 하드웨어, 보안, 예산 제약이 있는 환경에서도 거대 언어 모델(LLM)을 효과적으로 활용할 수 있는 가능성을 제시한다는 점에서 매우 중요합니다.

로컬-LLM MoE 메모리-최적화

MarkTechPost • 61일 전

IMP 6

리퀴드 AI, 128K 컨텍스트 지원 온디바이스 MoE 모델 공개

리퀴드 AI는 일반 소비자용 하드웨어에서도 구동 가능한 온디바이스용 MoE 모델인 LFM2.5-8B-A1B를 발표했습니다. 이 모델은 총 83억 개(8.3B)의 파라미터를 보유하고 있으면서도 연산 시 15억 개(1.5B)만 활성화하여 효율적인 추론을 자랑합니다. 최대 12만 8천(128K) 토큰의 긴 컨텍스트 처리와 고급 추론, 그리고 도구 호출(Tool calling) 기능을 지원하는 것이 특징입니다.

온디바이스 AI MoE 리퀴드 AI

MarkTechPost • 68일 전

IMP 8

코히어, H100 2개로 구동되는 218B 에이전트형 모델 공개

코히어(Cohere)가 기업용 에이전트 워크플로우에 최적화된 218B 매개변수의 오픈소스 MoE 모델 'Command A+'를 공개했습니다. 이 모델은 추론, 검색 증강 생성(RAG), 다국어 및 멀티모달 문서 처리 능력을 하나로 통합했으며, 최소 H100 GPU 2대만으로도 실행 가능해 현업 AI 실무자들에게 매우 효율적인 선택지가 됩니다.

대형 언어 모델 에이전트 AI 오픈소스

r/LocalLLaMA • 69일 전

IMP 8

코히어, 오픈소스 초고속 MoE 모델 'Command A+' 공개

코히어(Cohere)의 공동 창업자 닉 프로스트가 첫 번째 MoE(Mixture of Experts) 아키텍처 기반 모델인 'Command A+'를 공개했습니다. 이 모델은 소규모 팀과 개발자도 쉽게 에이전트를 구축할 수 있도록 실용성과 효율성을 극대화하여, 단 1~2개의 GPU 환경에서도 매우 빠르고 반응성 높게 구동되는 것이 가장 큰 특징입니다. 기업 중심의 서비스 모델을 유지하면서도 혁신을 이끄는 오픈소스 커뮤니티의 피드백을 반영하기 위해 Apache 2.0 라이선스로 전격 공개되었다는 점이 산업계 관계자들에게 주목받고 있습니다.

Cohere Command A+ MoE

r/LocalLLaMA • 81일 전

IMP 7

AI2, 문서 수준 라우팅 기반 MoE 'EMO' 공개

Allen Institute for AI(AI2)가 1T 토큰으로 학습된 새로운 MoE(Mixture of Experts) 모델인 EMO(14B 전체 파라미터 중 1B 활성화)를 공개했습니다. 이 모델의 가장 큰 특징은 기존의 표면적 패턴이 아닌 건강, 뉴스 등 특정 도메인을 기준으로 문서 수준 라우팅(document-level routing)을 수행한다는 점입니다. 라우팅 방식의 이러한 혁신은 전문가 모델의 할당을 훨씬 더 정교하게 만들어 줍니다.

AI2 MoE 오픈소스

The Decoder • 87일 전

IMP 8

샤오미 MiMo 모델, 4시간 만에 컴파일러 자동 코딩

샤오미가 1.02조 개 매개변수를 장착한 오픈웨이트 혼합 전문가(MoE) 언어모델 MiMo-V2.5-Pro를 공개했습니다. 이 모델은 최대 100만 토큰을 처리하며, 내부 테스트에서 불과 4.3시간 만에 완전한 컴파일러를 자율적으로 작성했습니다. 서구권 경쟁 모델들과 비교해 40~60% 적은 토큰으로 동등한 수준의 성능을 발휘하며 뛰어난 효율성을 입증했습니다.

샤오미 오픈소스 모델 자율 코딩

r/LocalLLaMA • 91일 전

IMP 7

미스트랄 미디움 모델 곧 공개

미스트랄(Mistral)의 소형 모델 버전명이 'Mistral-Small-4-119B-2603'로 확인되었습니다. 곧 출시될 미스트랄 미디움 모델은 128B(1,280억) 개의 매개변수를 탑재할 것으로 예상됩니다. 이 모델이 완전 연결(Dense) 구조를 채택할지, 아니면 소형 모델보다 덜 희소한 MoE(Mixture of Experts) 구조를 적용할지가 업계의 주요 관심사입니다.

미스트랄 LLM AI 모델

r/LocalLLaMA • 103일 전

IMP 8

알리바바 '큐웬3.6-35B-A3B' 오픈소스 공개

알리바바가 총 350억(35B) 파라미터 규모에 실제 활성 파라미터는 30억(3B)에 불과한 희소 MoE(Sparse MoE) 기반의 초경량 모델 '큐원3.6-35B-A3B'를 오픈소스로 공개했습니다. 자신보다 활성 파라미터가 10배나 큰 모델들과 맞먹는 수준의 에이전트 코딩(Agentic Coding) 능력과 강력한 멀티모달 추론 성능을 제공하는 것이 가장 큰 특징입니다. 실무자 입장에서 적은 컴퓨팅 자원으로도 고성능을 발휘할 수 있는 획기적인 오픈소스 AI 대안으로 평가받고 있습니다.

오픈소스 큐원(Qwen) MoE