BL
r/LocalLLaMA • 14일 전
Testing llama.cpp MTP support on Qwen3.6 - RTX 5090
IMP 3/10
핵심 요약
[요약 오류] Testing llama.cpp MTP support on Qwen3.6 - RTX 5090
원문 보기 (영어)
Setup:
\- RTX 5090, 32 GB, Linux
\- Built llama.cpp from 4f13cb7 (the official [ghcr.io/ggml-org/llama.cpp:server-cuda](http://ghcr.io/ggml-org/llama.cpp:server-cuda) image hasn't picked up the merge yet as of writing — had to docker build from source with CUDA\_DOCKER\_ARCH=120)
\- Unsloth's Qwen3.6-27B-MTP-GGUF Q5\_K\_M and Qwen3.6-35B-A3B-MTP-GGUF UD-Q4\_K\_M
\- 128k context, flash-attn, q8\_0 KV cache, temp 0.8, --parallel 1 (required for MTP)
\- Same GGUF for "MTP on" and "MTP off" — only the --spec-type draft-mtp --spec-draft-n-max 3 flag toggled. This isolates MTP from quant differences.
\- 2 prompts: "short story about a cat" (\~400 tokens) and "Flappy Bird clone as a single HTML file" (\~3000 tokens)
\- 3 seeds per config, averaged
관련 소식
LL
r/LocalLLaMA • 13일 전
IMP 7
llama.cpp: MTP 프롬프트 처리 속도 개선 PR 병합
오픈소스 프로젝트 llama.cpp에 MTP(다중 토큰 예측) 적용 시 프롬프트 처리(PP) 속도를 크게 향상시키는 PR이 병합되었습니다. 기존에는 불필요한 로짓(logit) 복사로 인해 메모리 부하가 발생했으나, 이를 최적화하여 MTP 사용 시 발생하던 성능 저하를 절반 수준으로 줄였습니다.
llama.cpp 성능 최적화 MTP
LL
r/LocalLLaMA • 14일 전
IMP 6
좋은 소식: llama.cpp에 MTP 승인
오픈소스 AI 추론 라이브러리인 llama.cpp에 Multi-Token Prediction(MTP) 기능이 드디어 승인되었습니다. 이 업데이트가 적용되면 AI 모델이 한 번에 여러 토큰을 예측하게 되어 텍스트 생성 속도와 추론 효율성이 대폭 향상될 것으로 기대됩니다. 실무자들은 곧 있을 업데이트 적용을 위해 환경 준비를 서두르는 추세입니다.
오픈소스 llama.cpp 추론 최적화