BL
r/LocalLLaMA • 17일 전
Qwen 모델에 다중 토큰 예측 적용 및 속도 40% 향상
IMP 7/10
핵심 요약
LLaMA.cpp 환경에서 Qwen 모델을 대상으로 다중 토큰 예측(MTP) 기술과 양자화 기법인 TurboQuant를 성공적으로 통합했습니다. 이를 통해 로컬 환경(MacBook Pro)에서 텍스트 생성 속도를 약 40% 향상시키고 높은 수용율(90%)을 달성하며 추론 성능을 크게 개선했습니다. 이 성과는 고성능 오픈소스 모델을 일반 로컬 하드웨어에서도 빠르고 효율적으로 구동할 수 있음을 입증합니다.
번역된 본문
LLaMA.cpp 환경에서 Qwen 모델을 위해 TurboQuant와 함께 다중 토큰 예측(Multi-Token Prediction, MTP)을 구현했습니다.
+40% 성능 향상! 90% 수용율(Acceptance rate)을 달성했습니다.
MacBook Pro M5 Max(64GB RAM) 환경에서 로컬로 실행했습니다.
출력 속도 결과: LLaMA.cpp + TurboQuant: 초당 21 토큰 (21 tokens/s) LLaMA.cpp + TurboQuant + MTP: 초당 34 토큰 (34 tokens/s)
MTP 및 TurboQuant가 패치된 LLaMA.cpp 저장소: https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant
MTP가 적용되어 GGUF 형식으로 양자화된 Qwen 3.6 27B (및 35B) 모델: https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp
로컬 AI 모델 앱: Atomic.Chat
원문 보기 (영어)
Implemented Multi-Token Prediction for QWEN on LLaMA.cpp with TurboQuant.
\+40% performance! 90% acceptance rate.
Running locally on a MacBook Pro M5 Max 64GB RAM.
Outputs:
LLaMA.cpp + TurboQuant: 21 tokens/s
LLaMA.cpp + TurboQuant + MTP: 34 tokens/s
Patched LLaMA.cpp with MTP and TurboQuant: [https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant](https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant)
Quantized Qwen 3.6 27B (and 35B) into GGUF with MTP: [https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp](https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp)
Local Ai Models App: [Atomic.Chat](http://Atomic.Chat)