#다중 토큰 예측

r/LocalLLaMA • 113일 전

IMP 7

구글 지마 4, 다중 토큰 예측 기능 숨겨져 있었다

개발자가 안드로이드 기기에서 구글의 오픈소스 모델인 지마 4(Gemma 4)를 테스트하던 중, 파일 내부에 속도 향상을 위한 '다중 토큰 예측(MTP)' 가중치가 숨겨져 있음을 발견했습니다. 구글 측은 기기 호환성을 이유로 해당 기능을 의도적으로 제거했다고 확인했으나, 이미 빠른 MoE(혼합 전문가) 아키텍처 기반의 모델에서 MTP가 적용되었다면 텍스트 생성 속도가 획기적으로 빨라졌을 것이라는 아쉬움이 나오고 있습니다.

오픈소스 모델 지마 4 다중 토큰 예측

#다중 토큰 예측

LLaMA.cpp에 다중 토큰 예측 도입, Gemma 4 속도 40% 향상

구글 지마 4, 다중 토큰 예측 기능 숨겨져 있었다