코히어, H100 2개로 구동되는 218B 에이전트형 모델 공개
코히어(Cohere)가 기업용 에이전트 워크플로우에 최적화된 218B 매개변수의 오픈소스 MoE 모델 'Command A+'를 공개했습니다. 이 모델은 추론, 검색 증강 생성(RAG), 다국어 및 멀티모달 문서 처리 능력을 하나로 통합했으며, 최소 H100 GPU 2대만으로도 실행 가능해 현업 AI 실무자들에게 매우 효율적인 선택지가 됩니다.
에디터 추천 | 에이전트 AI | 기술 | AI 쇼츠 | 인공지능 애플리케이션 | 언어 모델 | 대형 언어 모델 | 머신러닝 | 신규 릴리즈 | 오픈소스 | 소프트웨어 엔지니어링 | 기술 뉴스
코히어(Cohere)가 기업용 에이전트 워크플로우를 타겟으로 한 오픈소스 모델인 'Command A+'를 발표했습니다. 아파치 2.0(Apache 2.0) 라이선스로 제공되는 Command A+는 최소한의 컴퓨팅 오버헤드로 고성능 에이전트 작업을 수행하기 위해 설계된 혼합 전문가(Mixture-of-Experts, MoE) 모델입니다. 이 모델은 추론, 에이전트 워크플로우, RAG(검색 증강 생성), 다국어 및 멀티모달 문서 처리에 최적화되어 있습니다. 또한 기존의 4개 모델(Command A, Command A Reasoning, Command A Vision, Command A Translate)의 기능을 단일 확장 가능한 모델로 통합했습니다.
아키텍처 Command A+는 총 2,180억 개(218B)의 매개변수와 250억 개(25B)의 활성 매개변수를 갖춘 디코더 전용(Decoder-only) 희소 혼합 전문가(Sparse MoE) 트랜스포머입니다. 128개의 전문가(Expert) 중 토큰당 8개가 활성화되며, 모든 토큰에 단일 공유 전문가가 적용됩니다. MoE 모델에서는 각 토큰이 전체 매개변수 집합이 아닌 전문가 하위 네트워크의 일부만을 통과하므로, 추론 시 활성 컴퓨팅이 25B 매개변수 규모로 유지됩니다. 어텐션 레이어는 3:1 비율로 슬라이딩 윈도우 어텐션 레이어(회전 위치 임베딩 적용)와 위치 임베딩이 없는 글로벌 어텐션 레이어를 교차로 배치합니다. 희소 MoE 레이어는 완전한 드롭 없음(Fully dropless) 방식으로 학습되며, 토큰 선택 라우터(Token-choice router)와 각 토큰의 상위-k 전문가 로짓에 대한 정규화된 시그모이드(Sigmoid)를 사용합니다. 입력 모달리티는 텍스트, 이미지, 도구 사용(Tool use)이며, 출력 모달리티는 텍스트, 추론, 도구 사용입니다. 이 모델은 128K의 입력 컨텍스트 길이와 64K의 최대 생성 길이를 지원합니다.
하드웨어 요구 사항 및 양자화 최소 GPU 요구 사항을 충족하는 세 가지 양자화(Quantization) 변형이 제공됩니다. BF16(16비트)은 4× B200 또는 8× H100 GPU가 필요하고, FP8(8비트)은 2× B200 또는 4× H100 GPU가 필요하며, W4A4(4비트)는 단일 B200 또는 2× H100 GPU에서 실행됩니다. 세 가지 양자화 모두 벤치마크 품질에서 무시할 수 있는 수준의 차이만 보입니다. 코히어는 대부분의 배포 환경에 W4A4를 권장합니다.
W4A4 양자화 방법론 코히어는 2단계 스케일링이 적용된 4비트 가중치 및 활성화를 갖는 NVFP4 W4A4 양자화를 MoE 전문가에만 적용합니다. Q/K/V/O 프로젝션, KV 캐시 및 어텐션 연산을 포함한 어텐션 경로는 전체 정밀도(Full precision)를 유지합니다. 잔여 품질 격차를 해소하기 위해 학습 후 단계에서 양자화 인지 증류(Quantization-Aware Distillation, QAD)를 사용합니다. 양자화된 학생 모델은 순방향 패스에서 가짜 양자화 연산자(Fake quantization operators)를 사용하고 역방향 패스에서 직통 추정기(Straight-through estimators)를 사용하여 전체 정밀도 교사 모델의 출력 분포와 일치하도록 학습됩니다.
이전 Command A 모델 대비 성능 τ²-Bench Telecom에서 Command A Reasoning 대비 점수가 37%에서 85%로 향상되었으며, Terminal-Bench Hard 에이전트 코딩 성능은 3%에서 25%에 도달했습니다. LLM-as-a-judge 기술을 사용하여 채점한 내부 North 플랫폼 평가에서 에이전트 질의응답(QA) 정확도가 Command A Reasoning 대비 20% 향상되었습니다. 에이전트 QA는 MCP에 연결된 클라우드 파일 시스템을 사용하여 모델이 기업의 질문에 얼마나 잘 답변하는지 측정합니다. 스프레드시트 분석 품질은 32% 향상되었으며, 이전 세션의 정보를 활용하여 후속 세션의 질문에 답변하는 능력을 평가하는 메모리 사용 품질(Memory Usage Quality)은 Command A Reasoning의 39%에 비해 Command A+가 54%를 기록했습니다.
Command A+는 코히어의 첫 번째 멀티모달 추론 모델입니다. MMMU Pro에서 63%, MMMU에서 75.1%를 달성했으며, 후자의 경우 Command A Vision의 65.3%와 비교됩니다. MathVista 점수는 73.5%에서 80.6%로 향상되었고, CharXiv 추론은 46.9%에서 52.7%로 향상되었습니다. 또한 다국어 지원 범위를 23개에서 48개 언어로 확장하여 기계 번역 및 다국어 추론에서 큰 성능 향상을 보여주었습니다. Command A+는 Artificial Analysis Intelligence Index에서 37점을 기록하며 다른 주요 오픈소스 모델들을 능가했습니다.
속도 및 지연 시간 동일한 양자화 및 동시성 수준에서 Command A+는 초당 출력 토큰 수(TOPS)를 최대 63% 높이고 첫 토큰까지의 시간(TTFT)을 단축시킵니다.