메뉴

#AMD 인프라

HN
Hacker News 24일 전
IMP 8

10억 미만 파라미터로 딥시크 수학 성능 맞춘 ZAYA1-8B

Zyphra가 AMD GPU 클러스터로 훈련한 84억 MoE 모델 ZAYA1-8B는 7억 6천만 활성 파라미터로 DeepSeek-R1 수학 벤치마크를 상회하고, Claude Sonnet 4.5와 비견되는 성능을 보여줍니다. 이는 엔비디아 독점적 인프라 없이도 최첨단 AI 모델 개발이 가능하다는 것과 활성 파라미터를 극도로 줄이면서도 성능을 유지할 수 있다는 것을 증명합니다.

오픈소스 모델 MoE 아키텍처 AMD 인프라
LL
r/LocalLLaMA 24일 전
IMP 9

ZAYA1-8B: AMD GPU로 훈련된 최고 수준의 지능 밀도 모델

Zyphra가 AMD 인스틴트 MI300 클러스터에서 처음부터 학습된 MoE 아키텍처 기반의 'ZAYA1-8B' 모델을 공개했습니다. 10억 개 미만의 활성 파라미터를 활용함에도 불구하고 복잡한 추론, 수학, 코딩 벤치마크에서 자원 대비 최고 수준의 지능 밀도를 달성하며 Claude 4.5 Sonnet이나 Mistral-Small-4-119B 등 훨씬 큰 모델들을 능가하거나 필적하는 성능을 보여줍니다.

오픈소스 모델 AMD 인프라 MoE 아키텍처