메뉴

#추론 속도

TD
The Decoder 24일 전
IMP 8

구글, 멀티 토큰 예측으로 Gemma 4 속도 3배 향상

구글이 공개형 AI 모델인 Gemma 4에 '멀티 토큰 예측(MTP)' 초안 생성기를 도입해 텍스트 생성 속도를 최대 3배까지 높였습니다. 이 기술은 메인 모델이 데이터를 불러오며 대기하는 시간 동안 소형 보조 모델이 여러 토큰을 미리 제안하고 메인 모델이 이를 한 번에 검증하는 방식으로 작동합니다. 품질 저하 없이 스마트폰, 로컬 PC, 클라우드 환경 모두에서 빠른 처리가 가능하며, 소스코드는 Apache 2.0 라이선스로 공개되었습니다.

구글 Gemma 4 모델 최적화