메뉴
HN
Hacker News 24일 전

10억 미만 파라미터로 딥시크 수학 성능 맞춘 ZAYA1-8B

IMP
8/10
핵심 요약

Zyphra가 AMD GPU 클러스터로 훈련한 84억 MoE 모델 ZAYA1-8B는 7억 6천만 활성 파라미터로 DeepSeek-R1 수학 벤치마크를 상회하고, Claude Sonnet 4.5와 비견되는 성능을 보여줍니다. 이는 엔비디아 독점적 인프라 없이도 최첨단 AI 모델 개발이 가능하다는 것과 활성 파라미터를 극도로 줄이면서도 성능을 유지할 수 있다는 것을 증명합니다.

번역된 본문

홈페이지 기술 ZAYA1-8B, 10억 미만 활성 파라미터로 수학 분야 DeepSeek-R1과 동등 성능 달성. 2026년 5월 7일 작성자: Mohit Geryani. Zyphra가 대부분의 사람들이 왜 흥미로운지 모르고 지나칠 만한 무언가를 해낸 모델을 방금 공개했습니다. ZAYA1-8B는 수학 벤치마크에서 DeepSeek-R1과 동등한 성능을 기록합니다. 추론에서는 Claude Sonnet 4.5와 경쟁력을 유지합니다. 코딩에서는 Gemini 2.5 Pro에 근접합니다. 이는 보통 수십억 개의 파라미터와 막대한 하드웨어 요구 사항을 동반하는 최첨단 모델 비교 수치들입니다. 이 모델은 10억 미만의 활성 파라미터로 구동됩니다. 그리고 심각한 수준의 모델 중 거의 아무도 말할 수 없는 것처럼, AMD 하드웨어에서 전적으로 훈련되었습니다.

엔비디아 대신 AMD에 구축. 당신이 들어본 모든 모델은 대부분 H100, A100, GB200 등 엔비디아 하드웨어에서 훈련되었습니다. 오픈소스 AI 생태계 전체가 사실상의 엔비디아 독점 위에 구축되었으며, 대부분의 연구소는 언급할 것이 없기 때문에(항상 엔비디아이므로) 하드웨어를 언급하지도 않습니다. Zyphra는 AMD 인스턴트 MI300X GPU에서 ZAYA1-8B를 엔드투엔드로 훈련시켰습니다. 사전 훈련, 중간 훈련, 지도 미세조정(SFT), 이 모든 것이 IBM과 함께 구축하고 AMD 펜산도 Pollara 인터커넥트를 사용한 1,024노드 AMD 클러스터에서 이루어졌습니다. 이러한 디테일은 두 가지 이유로 중요합니다. 첫째, 이 규모에서 AMD 스택이 최첨단과 경쟁할 수 있는 결과를 생성할 수 있음을 증명하며, 이는 엔비디아 가격에 갇히지 않은 인프라를 고려하는 모든 사람에게 중요합니다. 둘째, Zyphra가 기본적으로 CUDA를 사용하는 대부분의 연구소가 직면하지 않는 실제 엔지니어링 문제를 해결해야 했음을 의미합니다. 해당 스택을 통해 모델이 이렇게 좋은 성능을 보인다는 것은 하드웨어와 팀 모두에 대해 무언가를 말해줍니다. 이는 업계에 필요한 대안적 경로에 대한 개념 증명입니다.

10억 미만의 활성 파라미터. ZAYA1-8B는 총 84억 파라미터와 추론 시 7억 6천만(760M) 활성 파라미터를 가진 mixture of experts(MoE) 모델입니다. 표준 밀집 모델에서는 모든 토큰에 대해 모든 파라미터가 작동합니다. MoE 모델에서는 토큰당 전문가의 하위 집합만 활성화되고 나머지는 유휴 상태를 유지합니다. ZAYA1-8B는 이를 대부분의 모델보다 더 밀어붙였습니다. 7억 6천만 활성 파라미터로 10억 미만 밀집 모델에 가까운 비용으로 추론을 실행하면서도 84억 총 파라미터에 걸쳐 저장된 지식을 끌어씁니다. MoE 모델이 이것을 해온 것은 새로운 아이디어가 아닙니다. Zyphra가 다르게 한 것은 활성 파라미터 수를 이 성능 수준에서 누구보다 낮추고, 활성 파라미터 예산이 줄어들더라도 추론 품질을 높게 유지하는 맞춤형 어텐션 메커니즘으로 뒷받침한 것입니다. 총 1190억 파라미터를 가진 Mistral Small 4가 86.4점을 받은 AIME 2026에서 89.1점을 기록했습니다. HMMT 2월 테스트에서는 동일한 모델의 70.6점에 대해 71.6점을 받았습니다. LiveCodeBench에서는 Mistral Small 4의 57.9점에 대해 65.8점을 기록했습니다. 이는 7억 6천만 활성 파라미터로 실행되는 모델과 60억 활성 파라미터로 실행되는 모델 간의 경쟁에서 결코 가까운 격차가 아닙니다.

수학 및 코딩 수치. Zyphra는 두 가지 세트의 점수를 보고합니다. 기본 점수(base scores)와 RSA 향상 점수(RSA-boosted scores)입니다. 기본 점수는 특별한 테스트 시간 연산 방법 없이 모델이 생성하는 것입니다. RSA 점수는 Zyphra의 새로운 추론 방법을 사용하여 여러 추론 트레이스를 병렬로 생성하고 이를 집계합니다. 둘 다 실제 결과이지만 서로 다른 연산 예산을 나타내며 어떤 숫자를 보고 있는지 아는 것이 가치 있습니다. 기본 점수만으로도 ZAYA1-8B은 AIME 2025와 HMMT에서 DeepSeek-R1-0528 및 Claude Sonnet 4.5를 앞섭니다. RSA를 사용하면 격차가 더 벌어집니다. LiveCodeBench에서 기본 점수는 Gemini 2.5 Pro보다 낮지만 DeepSeek-R1과는 경쟁력을 유지합니다. 동급 비교는 훨씬 더 놀랍습니다. Qwen3-4B, Gemma 4 E4B와 같은 유사한 총 파라미터 수를 가진 모델과 비교했을 때 ZAYA1-8B은 모든 수학 벤치마크에서 상당한 차이로 앞섭니다. AIME 2026에서 Qwen3-4B-Thinking의 77.5점에 대해 89.1점, HMMT에서 Qwen3-4B의 60.8점에 대해 71.6점을 기록했습니다. 모든 숫자는 공식 출처에서 가져왔습니다.

원문 보기
원문 보기 (영어)
Home Tech ZAYA1-8B Matches DeepSeek-R1 on Math with Less Than 1B Active Parameters. ZAYA1-8B Matches DeepSeek-R1 on Math with Less Than 1B Active Parameters. By Mohit Geryani May 7, 2026 0 Last updated: May 7, 2026 Share Facebook Twitter Pinterest WhatsApp - Advertisement - Zyphra just dropped a model that's doing something most people will scroll past without understanding why it's interesting. ZAYA1-8B matches DeepSeek-R1 on math benchmarks. Stays competitive with Claude Sonnet 4.5 on reasoning. Closes in on Gemini 2.5 Pro on coding. These are frontier model comparisons, the kind of numbers that usually come with billions of parameters and serious hardware requirements. This one runs on less than 1 billion active parameters. And it was trained entirely on AMD hardware, which almost no serious model can say. Built on AMD Instead of NVIDIA. Every model you've heard of was trained on NVIDIA hardware mostly on H100s, A100s, GB200s. The entire open source AI ecosystem has been built on a de facto NVIDIA monopoly and most labs don't even mention the hardware because there's nothing to mention, it's always NVIDIA. Zyphra trained ZAYA1-8B end to end on AMD Instinct MI300X GPUs. Pretraining, midtraining, supervised fine-tuning, all of it on a 1,024 node AMD cluster built with IBM using AMD Pensando Pollara interconnect. That detail matters for two reasons. First it proves the AMD stack can produce frontier-competitive results at this scale, which matters for anyone thinking about infrastructure that isn't locked into NVIDIA pricing. Second it means Zyphra had to solve real engineering problems that most labs never encounter because they default to CUDA. The fact that the model performs this well coming off that stack says something about both the hardware and the team. It's a proof of concept for an alternative path that the industry needs. Less than 1B active parameters. ZAYA1-8B is a mixture of experts model with 8.4B total parameters and 760M active at inference time. In a standard dense model every parameter fires for every token. In a MoE model only a subset of experts activates per token, the rest sit idle. ZAYA1-8B takes that further than most. At 760M active parameters it's running inference at a cost closer to a sub-1B dense model while drawing on the knowledge stored across 8.4B total parameters. That's not a new idea, mixture of experts models have been doing this for a while. What Zyphra did differently is push the active parameter count lower than anyone has at this performance level, and back it up with a custom attention mechanism that keeps reasoning quality high even as the active parameter budget shrinks. AIME 2026 at 89.1 against Mistral Small 4 at 119B total parameters scoring 86.4. HMMT February at 71.6 against the same model's 70.6. LiveCodeBench at 65.8 against Mistral Small 4's 57.9. Those aren't close races for a model running at 760M active parameters against one running at 6B active. Zaya1-8B You May Like: Best AI Coding Models for Consumer Hardware The math and coding numbers Zyphra reports two sets of scores. base scores and RSA-boosted scores. The base scores are what the model produces without any special test-time compute method. The RSA scores use Zyphra's novel inference method that generates multiple reasoning traces in parallel and aggregates them. Both are real results but they represent different compute budgets and it's worth knowing which number you're looking at. The base scores alone put ZAYA1-8B ahead of DeepSeek-R1-0528 and Claude Sonnet 4.5 on AIME 2025 and HMMT. With RSA the gap increases further. On LiveCodeBench the base score less than Gemini 2.5 Pro but stays competitive with DeepSeek-R1. The in-class comparison is even more striking. Against models of similar total parameter count like Qwen3-4B, Gemma 4 E4B. ZAYA1-8B leads across every math benchmark by significant margins. AIME 2026 at 89.1 against Qwen3-4B-Thinking's 77.5. HMMT at 71.6 against Qwen3-4B's 60.8. All numbers are from Zyphra's own evaluation. You May Like: DeepSeek-V4 Can Hold Your Entire Codebase in One Context Window and It’s Open Source Markovian RSA: Why This Model Gets Better the More You Let It Think Most models give you one shot at the answer. More compute doesn't help because the reasoning happens once and stops. Test-time compute methods try to change that. The basic idea is generating multiple answers in parallel and picking the best one. It works but it has a problem, as reasoning chains get longer the context window fills up and the model loses track of where it started. Markovian RSA is Zyphra's solution to that specific problem. Instead of one long reasoning chain, the model reasons in chunks. Each chunk generates multiple parallel traces, extracts just the tail end of each trace, the part that actually matters for the next step and uses those as seeds for the next round. The context window stays bounded no matter how long the overall reasoning process runs. The result is a model that keeps getting better as you give it more compute to think with. On APEX-shortlist with extra-high compute, ZAYA1-8B surpasses DeepSeek-V3.2 and GPT-OSS-High on a challenging mathematics benchmark. That's a 760M active parameter model outperforming models with tens of billions of active parameters given enough thinking budget. One important detail Zyphra flags themselves: this works because they trained the model specifically to understand and respond to the Markovian RSA process. When they applied the same method to Qwen3-4B without that co-training, the performance uplift was significantly smaller. The method and the model were designed together. Limitations of this Model The math and coding part is impressive but the agentic one is not. BFCL-V4, which tests reliable function calling, scores 39.22. Qwen3-4B-Thinking hits 49.7 on the same benchmark. TAU2 scores 43.12 against Qwen3-4B-Thinking's 52.9. These are meaningful gaps and Zyphra doesn't hide from them, the model was built and optimized for mathematical reasoning and coding, not for multi-step tool use and agent execution. Instruction following is also mixed. IFEval at 85.58 is solid but IFBench at 52.56 trails Qwen3.5-4B's 59.2. For tasks that require strict adherence to complex instructions across many steps, there are better options at this size. Style and chat quality tells the same thing. EQBench at 72.95 and Creative Writing at 62.97 both less than comparable models. This is a reasoning and math specialist, not a well-rounded assistant. If your use case is math, science, or complex coding problems, ZAYA1-8B is genuinely one of the most interesting small models available right now. If you need reliable tool calling, complex instruction following, or strong general chat quality, the benchmarks are honest about where it falls short. How to try it The quickest path is Zyphra Cloud where it runs as a serverless endpoint. For local use the weights are on Hugging Face under Apache 2.0 which is about as clean a license as you get. One honest heads up for local deployment. ZAYA1-8B requires Zyphra's own fork of vLLM to run properly. The standard vLLM install won't work. It's a one-line install but worth knowing before you assume it drops straight into your existing stack. Zaya1-8B (Zyphra Cloud) Small Model For Science, Maths & Coding If you work with math, science problems, or complex coding tasks and you're looking for something small enough to run locally or cheaply via API, this is worth serious evaluation. The benchmark numbers at 760M active parameters are not normal and the Markovian RSA boost means performance scales with compute budget. If you're building agent workflows that need reliable tool calling or multi-step instruction following, then there are many great solutions available, you can check these open source agentic models . The agentic numbers are honest about that gap. Researchers working on test-time compute methods will find the Markovian RSA implementation worth studying
관련 소식