LLaMA.cpp에 다중 토큰 예측 도입, Gemma 4 속도 40% 향상
오픈소스 로컬 AI 프로젝트인 LLaMA.cpp에 다중 토큰 예측(Multi-Token Prediction) 기능이 구현되어 추론 속도가 대폭 향상되었습니다. MacBook Pro M5Max 환경에서 테스트한 결과, Gemma 26B 모델의 토큰 생성 속도가 기존 97 tokens/s에서 138 tokens/s로 약 40% 증가했습니다. 이는 로컬 환경에서 구동되는 소규모 모델의 실사용 성능을 크게 끌어올리는 중요한 최적화 성과입니다.
LLaMA.cpp에 다중 토큰 예측(Multi-Token Prediction, MTP) 기능을 구현했습니다.
Gemma 4 어시스턴트 모델을 GGUF 포맷으로 양자화(Quantized)했습니다.
MacBook Pro M5Max에서 테스트를 진행했습니다. MTP 초안 토큰(draft tokens)을 적용한 Gemma 26B 모델은 속도가 40% 더 빨랐습니다.
프롬프트: 재귀(Recursion)를 사용하여 n번째 피보나치 수를 구하는 파이썬 프로그램을 작성하세요.
출력 결과: LLaMA.cpp: 97 tokens/s LLaMA.cpp + MTP: 138 tokens/s
Gemma4-assistant GGUF 양자화 모델: https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf
로컬 AI 모델 앱: http://atomic.chat
패치된 llama.cpp: https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant