메뉴
BL
r/LocalLLaMA 17일 전

Qwen 모델에 다중 토큰 예측 적용 및 속도 40% 향상

IMP
7/10
핵심 요약

LLaMA.cpp 환경에서 Qwen 모델을 대상으로 다중 토큰 예측(MTP) 기술과 양자화 기법인 TurboQuant를 성공적으로 통합했습니다. 이를 통해 로컬 환경(MacBook Pro)에서 텍스트 생성 속도를 약 40% 향상시키고 높은 수용율(90%)을 달성하며 추론 성능을 크게 개선했습니다. 이 성과는 고성능 오픈소스 모델을 일반 로컬 하드웨어에서도 빠르고 효율적으로 구동할 수 있음을 입증합니다.

번역된 본문

LLaMA.cpp 환경에서 Qwen 모델을 위해 TurboQuant와 함께 다중 토큰 예측(Multi-Token Prediction, MTP)을 구현했습니다.

+40% 성능 향상! 90% 수용율(Acceptance rate)을 달성했습니다.

MacBook Pro M5 Max(64GB RAM) 환경에서 로컬로 실행했습니다.

출력 속도 결과: LLaMA.cpp + TurboQuant: 초당 21 토큰 (21 tokens/s) LLaMA.cpp + TurboQuant + MTP: 초당 34 토큰 (34 tokens/s)

MTP 및 TurboQuant가 패치된 LLaMA.cpp 저장소: https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant

MTP가 적용되어 GGUF 형식으로 양자화된 Qwen 3.6 27B (및 35B) 모델: https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp

로컬 AI 모델 앱: Atomic.Chat

원문 보기
원문 보기 (영어)
Implemented Multi-Token Prediction for QWEN on LLaMA.cpp with TurboQuant.  \+40% performance! 90% acceptance rate. Running locally on a MacBook Pro M5 Max 64GB RAM. Outputs: LLaMA.cpp + TurboQuant: 21 tokens/s LLaMA.cpp + TurboQuant + MTP: 34 tokens/s Patched LLaMA.cpp with MTP and TurboQuant: [https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant](https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant) Quantized Qwen 3.6 27B (and 35B) into GGUF with MTP: [https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp](https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp) Local Ai Models App: [Atomic.Chat](http://Atomic.Chat)