ZAYA1-8B: AMD GPU로 훈련된 최고 수준의 지능 밀도 모델
Zyphra가 AMD 인스틴트 MI300 클러스터에서 처음부터 학습된 MoE 아키텍처 기반의 'ZAYA1-8B' 모델을 공개했습니다. 10억 개 미만의 활성 파라미터를 활용함에도 불구하고 복잡한 추론, 수학, 코딩 벤치마크에서 자원 대비 최고 수준의 지능 밀도를 달성하며 Claude 4.5 Sonnet이나 Mistral-Small-4-119B 등 훨씬 큰 모델들을 능가하거나 필적하는 성능을 보여줍니다.
모델 소개
2026년 5월 5일, 캘리포니아주 샌프란시스코
ZAYA1-8B: AMD GPU로 훈련된 최고 수준의 지능 밀도
Zyphra는 복잡한 추론, 수학 및 코딩 작업에서 강력한 성능을 발휘하는 AMD 훈련 기반 MoE(Mixture of Experts) 모델인 ZAYA1-8B를 출시했습니다.
참여 연구진: Robert Washbourne, Rishi Iyer, Tomás Figliolia, Henry Zheng, Ryan Lorig-Roach, Sungyeon Yang, Pritish Yuvraj, Quentin Anthony, Yury Tokpanov, Xiao Yang, Ganesh Nanduru, Stephen Ebert, Praneeth Medepalli, Skyler Szot, Srivatsan Rajagopal, Alex Ong, Bhavana Mehta, Beren Millidge
[기술 보고서 읽기] [허깅페이스]
소개
ZAYA1-8B의 수학 및 코딩 성능 vs 더 큰 규모의 오픈웨이트 및 독점 추론 모델들
오늘 Zyphra는 AMD 인스틴트 MI300 스택에서 사전 훈련(pretrained), 중간 훈련(midtrained), 지도 미세조정(SFT)을 모두 거친 최초의 MoE 모델인 ZAYA1-8B를 출시합니다. ZAYA1-8B는 활성 파라미터당 최고 수준의 지능 밀도(frontier intelligence density)를 제공하며, 특정 수학 및 코딩 벤치마크에서 훨씬 더 큰 규모의 오픈웨이트 모델들을 능가합니다.
10억 개 미만의 활성 파라미터를 가지고도, ZAYA1-8B는 추론, 수학 및 코딩 벤치마크에서 강력한 성능을 발휘합니다. 이는 자신보다 수십 배 큰 모델인 Mistral-Small-4-119B의 성능과 일치하거나 이를 능가하며, DeepSeek-R1-0528, Gemini-2.5-Pro 및 Claude 4.5 Sonnet과 같이 훨씬 더 큰 1세대 최고 수준의 추론 모델들과도 경쟁력을 유지합니다.
당사의 새로운 Markovian-RSA 테스트 시점 연산(test-time compute) 기법을 적용하여 추가적인 상당한 성능 향상을 달성했습니다. 이를 통해 HMMT'25 벤치마크에서 Claude 4.5 Sonnet 및 GPT-5-High를 능가하는 성적(89.6점 vs 88.3점)을 기록했으며, 수학 벤치마크에서는 DeepSeek-V3.2와 같은 최고 수준의 오픈웨이트 모델에 근접하는 성과를 보여주고 있습니다.
ZAYA1-8B의 이러한 성능은 모델 아키텍처, 사전 훈련 및 최적화부터 사후 훈련(post-training) 및 대규모 강화학습(RL)에 이르기까지 전체 스택에 걸친 Zyphra의 혁신을 입증합니다. 나아가 이러한 강점은 당사의 사후 훈련 스택의 강력함을 보여주며, 향후 모델 크기와 다양한 도메인의 폭넓은 적용 측면에서 이러한 노력을 계속해서 확장해 나갈 것을 기대하고 있습니다.
ZAYA1-8B는 오늘부터 Zyphra Cloud에서 서버리스 엔드포인트로 사용할 수 있습니다.
성능
ZAYA1-8B는 동일한 파라미터급의 최신 최고 수준(SOTA) 오픈소스 모델 및 수학(AIME 및 HMMT), 코딩(LCB), 추론 및 지식 검색(GPQA-Diamond), 명령어 준수(IFEval 및 IFBench)와 같은 광범위한 평가에서 훨씬 더 큰 규모의 수많은 오픈소스 모델들과 대등하게 경쟁합니다.
다양한 평가에서 ZAYA1-8B와 주요 오픈웨이트 모델들의 비교
아키텍처
ZAYA1-8B는 독특한 아키텍처, 사전 훈련 방법론, 그리고 강화학습 파이프라인의 조합을 통해 그 효율성을 달성합니다. 스택의 각 레벨에서 도입된 새로운 혁신 기술들은 최종 모델의 파라미터당, 그리고 연산량(FLOP)당 추출되는 지능을 극대화한다는 단일한 목표를 위해 최적화되었습니다.
ZAYA1-8B는 세 가지 핵심적인 아키텍처 변화를 보여줍니다. 첫째, Zyphra가 개발한 훨씬 더 효율적이고 성능이 뛰어난 어텐션 변형인 압축 합성곱 어텐션(Compressed Convolutional Attention, CCA)입니다. 둘째, 선형 라우터에 비해 라우팅 안정성을 향상시키는 새로운 MLP 기반 전문가 선택 라우터입니다. 셋째, 무시할 수 있을 정도로 적은 파라미터와 연산 비용으로 깊이에 따른 잔차 노름(residual-norm) 성장을 제어하는 학습된 잔차 스케일링(learned residual scaling)입니다. 이 세 가지가 결합되어 ZAYA1-8B의 지능 효율성의 기반을 형성합니다.
CCA와 새로운 라우터를 결합한 ZAYA1-8B 아키텍처 개략도
사전 훈련
ZAYA1-8B의 가장 독특한 특징은 AMD 하드웨어와 네트워킹을 사용하여 IBM과 함께 구축된 맞춤형 훈련 클러스터에서 1,024개의 MI300x 노드 클러스터와 AMD Pensando Pollara 인터커넥트를 활용해 전적으로 사전 훈련이 진행되었다는 점입니다. 당사의 사전 훈련 및 클러스터 설계에 대한 자세한 내용은 이전에 발표한 ZAYA1-base 기술 보고서에 깊이 있게 설명되어 있습니다.
사후 훈련
Zyphra의 새로운 대규모 사후 훈련 파이프라인 역시 ZAYA1-8B의 성능을 구성하는 핵심 요소입니다. 당사의 파이프라인은 다섯 단계로 구성되며, 각 단계는 ZAYA1-8B의 기능을 순차적으로 향상시키는 데 중점을 둡니다. 첫 번째 SFT(지도 미세조정) 단계...