메뉴
BL
r/LocalLLaMA 23일 전

LLaMA.cpp에 다중 토큰 예측 도입, Gemma 4 속도 40% 향상

IMP
8/10
핵심 요약

오픈소스 로컬 AI 프로젝트인 LLaMA.cpp에 다중 토큰 예측(Multi-Token Prediction) 기능이 구현되어 추론 속도가 대폭 향상되었습니다. MacBook Pro M5Max 환경에서 테스트한 결과, Gemma 26B 모델의 토큰 생성 속도가 기존 97 tokens/s에서 138 tokens/s로 약 40% 증가했습니다. 이는 로컬 환경에서 구동되는 소규모 모델의 실사용 성능을 크게 끌어올리는 중요한 최적화 성과입니다.

번역된 본문

LLaMA.cpp에 다중 토큰 예측(Multi-Token Prediction, MTP) 기능을 구현했습니다.

Gemma 4 어시스턴트 모델을 GGUF 포맷으로 양자화(Quantized)했습니다.

MacBook Pro M5Max에서 테스트를 진행했습니다. MTP 초안 토큰(draft tokens)을 적용한 Gemma 26B 모델은 속도가 40% 더 빨랐습니다.

프롬프트: 재귀(Recursion)를 사용하여 n번째 피보나치 수를 구하는 파이썬 프로그램을 작성하세요.

출력 결과: LLaMA.cpp: 97 tokens/s LLaMA.cpp + MTP: 138 tokens/s

Gemma4-assistant GGUF 양자화 모델: https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf

로컬 AI 모델 앱: http://atomic.chat

패치된 llama.cpp: https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant

원문 보기
원문 보기 (영어)
Implemented Multi-Token Prediction for LLaMA.cpp.  Quantized Gemma 4 assistant models into GGUF format.  Ran tests on a MacBook Pro M5Max. Gemma 26B with MTP drafts tokens 40% faster.  Prompt: Write a Python program to find the nth Fibonacci number using recursion Outputs: LLaMA.cpp: 97 tokens/s LLaMA.cpp + MTP: 138 tokens/s   Gemma4-assistant GGUF Quantized models: [https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf](https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf) Local AI models app: [http://atomic.chat](http://atomic.chat) Patched llama.cpp: [https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant](https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant)