10억 미만 파라미터로 딥시크 수학 성능 맞춘 ZAYA1-8B
Zyphra가 AMD GPU 클러스터로 훈련한 84억 MoE 모델 ZAYA1-8B는 7억 6천만 활성 파라미터로 DeepSeek-R1 수학 벤치마크를 상회하고, Claude Sonnet 4.5와 비견되는 성능을 보여줍니다. 이는 엔비디아 독점적 인프라 없이도 최첨단 AI 모델 개발이 가능하다는 것과 활성 파라미터를 극도로 줄이면서도 성능을 유지할 수 있다는 것을 증명합니다.
홈페이지 기술 ZAYA1-8B, 10억 미만 활성 파라미터로 수학 분야 DeepSeek-R1과 동등 성능 달성. 2026년 5월 7일 작성자: Mohit Geryani. Zyphra가 대부분의 사람들이 왜 흥미로운지 모르고 지나칠 만한 무언가를 해낸 모델을 방금 공개했습니다. ZAYA1-8B는 수학 벤치마크에서 DeepSeek-R1과 동등한 성능을 기록합니다. 추론에서는 Claude Sonnet 4.5와 경쟁력을 유지합니다. 코딩에서는 Gemini 2.5 Pro에 근접합니다. 이는 보통 수십억 개의 파라미터와 막대한 하드웨어 요구 사항을 동반하는 최첨단 모델 비교 수치들입니다. 이 모델은 10억 미만의 활성 파라미터로 구동됩니다. 그리고 심각한 수준의 모델 중 거의 아무도 말할 수 없는 것처럼, AMD 하드웨어에서 전적으로 훈련되었습니다.
엔비디아 대신 AMD에 구축. 당신이 들어본 모든 모델은 대부분 H100, A100, GB200 등 엔비디아 하드웨어에서 훈련되었습니다. 오픈소스 AI 생태계 전체가 사실상의 엔비디아 독점 위에 구축되었으며, 대부분의 연구소는 언급할 것이 없기 때문에(항상 엔비디아이므로) 하드웨어를 언급하지도 않습니다. Zyphra는 AMD 인스턴트 MI300X GPU에서 ZAYA1-8B를 엔드투엔드로 훈련시켰습니다. 사전 훈련, 중간 훈련, 지도 미세조정(SFT), 이 모든 것이 IBM과 함께 구축하고 AMD 펜산도 Pollara 인터커넥트를 사용한 1,024노드 AMD 클러스터에서 이루어졌습니다. 이러한 디테일은 두 가지 이유로 중요합니다. 첫째, 이 규모에서 AMD 스택이 최첨단과 경쟁할 수 있는 결과를 생성할 수 있음을 증명하며, 이는 엔비디아 가격에 갇히지 않은 인프라를 고려하는 모든 사람에게 중요합니다. 둘째, Zyphra가 기본적으로 CUDA를 사용하는 대부분의 연구소가 직면하지 않는 실제 엔지니어링 문제를 해결해야 했음을 의미합니다. 해당 스택을 통해 모델이 이렇게 좋은 성능을 보인다는 것은 하드웨어와 팀 모두에 대해 무언가를 말해줍니다. 이는 업계에 필요한 대안적 경로에 대한 개념 증명입니다.
10억 미만의 활성 파라미터. ZAYA1-8B는 총 84억 파라미터와 추론 시 7억 6천만(760M) 활성 파라미터를 가진 mixture of experts(MoE) 모델입니다. 표준 밀집 모델에서는 모든 토큰에 대해 모든 파라미터가 작동합니다. MoE 모델에서는 토큰당 전문가의 하위 집합만 활성화되고 나머지는 유휴 상태를 유지합니다. ZAYA1-8B는 이를 대부분의 모델보다 더 밀어붙였습니다. 7억 6천만 활성 파라미터로 10억 미만 밀집 모델에 가까운 비용으로 추론을 실행하면서도 84억 총 파라미터에 걸쳐 저장된 지식을 끌어씁니다. MoE 모델이 이것을 해온 것은 새로운 아이디어가 아닙니다. Zyphra가 다르게 한 것은 활성 파라미터 수를 이 성능 수준에서 누구보다 낮추고, 활성 파라미터 예산이 줄어들더라도 추론 품질을 높게 유지하는 맞춤형 어텐션 메커니즘으로 뒷받침한 것입니다. 총 1190억 파라미터를 가진 Mistral Small 4가 86.4점을 받은 AIME 2026에서 89.1점을 기록했습니다. HMMT 2월 테스트에서는 동일한 모델의 70.6점에 대해 71.6점을 받았습니다. LiveCodeBench에서는 Mistral Small 4의 57.9점에 대해 65.8점을 기록했습니다. 이는 7억 6천만 활성 파라미터로 실행되는 모델과 60억 활성 파라미터로 실행되는 모델 간의 경쟁에서 결코 가까운 격차가 아닙니다.
수학 및 코딩 수치. Zyphra는 두 가지 세트의 점수를 보고합니다. 기본 점수(base scores)와 RSA 향상 점수(RSA-boosted scores)입니다. 기본 점수는 특별한 테스트 시간 연산 방법 없이 모델이 생성하는 것입니다. RSA 점수는 Zyphra의 새로운 추론 방법을 사용하여 여러 추론 트레이스를 병렬로 생성하고 이를 집계합니다. 둘 다 실제 결과이지만 서로 다른 연산 예산을 나타내며 어떤 숫자를 보고 있는지 아는 것이 가치 있습니다. 기본 점수만으로도 ZAYA1-8B은 AIME 2025와 HMMT에서 DeepSeek-R1-0528 및 Claude Sonnet 4.5를 앞섭니다. RSA를 사용하면 격차가 더 벌어집니다. LiveCodeBench에서 기본 점수는 Gemini 2.5 Pro보다 낮지만 DeepSeek-R1과는 경쟁력을 유지합니다. 동급 비교는 훨씬 더 놀랍습니다. Qwen3-4B, Gemma 4 E4B와 같은 유사한 총 파라미터 수를 가진 모델과 비교했을 때 ZAYA1-8B은 모든 수학 벤치마크에서 상당한 차이로 앞섭니다. AIME 2026에서 Qwen3-4B-Thinking의 77.5점에 대해 89.1점, HMMT에서 Qwen3-4B의 60.8점에 대해 71.6점을 기록했습니다. 모든 숫자는 공식 출처에서 가져왔습니다.