#추론_속도

세레브라스, 1조 파라미터 모델 초당 1000토큰 실행

AI 반도체 기업 세레브라스(Cerebras)가 1조 개 파라미터 규모의 초거대 언어 모델인 Kimi K2를 자사 시스템에서 초당 1,000 토큰이라는 압도적인 속도로 실행할 수 있음을 발표했습니다. 이는 기존 GPU 기반 인프라에서 대규모 모델을 구동할 때 겪었던 병목 현상과 속도 제한을 혁신적으로 해결한 사례로, 엔터프라이즈 환경에서 실시간 AI 서비스 도입의 현실성을 크게 높였다는 점에서 업계에 큰 의미를 줍니다.

인공지능 세레브라스 AI_반도체

The Decoder • 83일 전

IMP 8

구글, 멀티 토큰 예측으로 Gemma 4 속도 3배 향상

구글이 공개형 AI 모델인 Gemma 4에 '멀티 토큰 예측(MTP)' 초안 생성기를 도입해 텍스트 생성 속도를 최대 3배까지 높였습니다. 이 기술은 메인 모델이 데이터를 불러오며 대기하는 시간 동안 소형 보조 모델이 여러 토큰을 미리 제안하고 메인 모델이 이를 한 번에 검증하는 방식으로 작동합니다. 품질 저하 없이 스마트폰, 로컬 PC, 클라우드 환경 모두에서 빠른 처리가 가능하며, 소스코드는 Apache 2.0 라이선스로 공개되었습니다.

구글 Gemma 4 모델 최적화