메뉴

#다중 토큰 예측

LL
r/LocalLLaMA 23일 전
IMP 8

LLaMA.cpp에 다중 토큰 예측 도입, Gemma 4 속도 40% 향상

오픈소스 로컬 AI 프로젝트인 LLaMA.cpp에 다중 토큰 예측(Multi-Token Prediction) 기능이 구현되어 추론 속도가 대폭 향상되었습니다. MacBook Pro M5Max 환경에서 테스트한 결과, Gemma 26B 모델의 토큰 생성 속도가 기존 97 tokens/s에서 138 tokens/s로 약 40% 증가했습니다. 이는 로컬 환경에서 구동되는 소규모 모델의 실사용 성능을 크게 끌어올리는 중요한 최적화 성과입니다.

로컬 AI 추론 최적화 llama.cpp
LL
r/LocalLLaMA 54일 전
IMP 7

구글 지마 4, 다중 토큰 예측 기능 숨겨져 있었다

개발자가 안드로이드 기기에서 구글의 오픈소스 모델인 지마 4(Gemma 4)를 테스트하던 중, 파일 내부에 속도 향상을 위한 '다중 토큰 예측(MTP)' 가중치가 숨겨져 있음을 발견했습니다. 구글 측은 기기 호환성을 이유로 해당 기능을 의도적으로 제거했다고 확인했으나, 이미 빠른 MoE(혼합 전문가) 아키텍처 기반의 모델에서 MTP가 적용되었다면 텍스트 생성 속도가 획기적으로 빨라졌을 것이라는 아쉬움이 나오고 있습니다.

오픈소스 모델 지마 4 다중 토큰 예측