MarkTechPost • 83일 전

자이프라, AMD 하드웨어 학습 MoE 'ZAYA1-8B' 공개

IMP

8/10

핵심 요약

자이프라(Zyphra)는 활성 파라미터 7억 6천만 개(760M)만 사용하는 경량 추론 MoE(Mixture of Experts) 모델인 ZAYA1-8B를 공개했습니다. 이 모델은 새로운 마르코프 RSA 테스트 타임 컴퓨팅 기법을 적용하여 수학 및 코딩 벤치마크에서 자신보다 훨씬 거대한 모델들을 뛰어넘는 성능을 입증했습니다. 엔드투엔드 AMD 인스팅트 MI300 하드웨어로 학습되었으며 아파치 2.0(Apache 2.0) 라이선스로 배포되어, 소규모 언어 모델 분야의 지능 밀도(Intelligence density) 새로운 기준을 제시했습니다.

번역된 본문

자이프라(Zyphra)는 활성 파라미터 7억 6천만 개(760M)만을 사용하는 추론 기반 Mixture of Experts(MoE) 모델인 ZAYA1-8B를 발표했습니다. 이 모델은 새로운 마르코프 RSA(Markovian RSA) 테스트 타임 컴퓨팅(Test-time compute) 방식을 적용하여, 수학 및 코딩 벤치마크에서 자신보다 몇 배나 큰 오픈 웨이트(Open-weight) 모델들을 능가하는 성능을 보여줍니다. 특히 HMMT'25 벤치마크에서는 Claude 4.5 Sonnet을 뛰어넘고 DeepSeek-V3.2에 근접하는 놀라운 결과를 달성했습니다. 이 모델은 AMD 인스팅트 MI300(AMD Instinct MI300) 하드웨어에서 엔드투엔드(End-to-end) 방식으로 학습되었으며 아파치 2.0(Apache 2.0) 라이선스로 공개되어, 소규모 언어 모델(SLM) 무게급에서 지능 밀도(Intelligence density)의 새로운 표준을 제시하고 있습니다.

'자이프라, AMD 하드웨어 학습 MoE 'ZAYA1-8B' 공개'라는 제목의 이 게시물은 마크테크포스트(MarkTechPost)에 처음 게재되었습니다.

원문 보기

원문 보기 (영어)

Zyphra releases ZAYA1-8B, a reasoning Mixture of Experts model with only 760M active parameters that outperforms open-weight models many times its size on math and coding benchmarks — closing in on DeepSeek-V3.2 and surpassing Claude 4.5 Sonnet on HMMT'25 with its novel Markovian RSA test-time compute method. Trained end-to-end on AMD Instinct MI300 hardware and released under Apache 2.0, it sets a new standard for intelligence density in the small language model weight class. The post Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class appeared first on MarkTechPost.

소규모 언어 모델(SLM) MoE (Mixture of Experts) AMD AI 하드웨어 추론(Reasoning) 모델 오픈소스 AI