메뉴
BL
r/LocalLLaMA 10일 전

Qwen 3.6 35B 양자화 벤치마크: NTP vs MTP

IMP
7/10
핵심 요약

ByteShape가 Qwen 3.6 35B 모델의 NTP(기존)와 MTP 방식 GGUF 양자화 결과를 공개했습니다. GPU 환경에서는 MTP 방식이 토큰 생성 속도를 최대 20~40% 향상시켰으나, CPU 환경에서는 오히려 성능 저하가 발생해 NTP 사용을 권장합니다. 또한 무조건 낮은 압축률(bpw)을 선택하기보다, 메모리가 허용하는 한 더 큰 용량의 모델을 쓰는 것이 속도와 품질 면에서 유리한 결과를 보였습니다.

번역된 본문

r/LocalLLaMA 여러분 안녕하세요,

저희는 ByteShape Qwen 3.6 35B GGUF 양자화 모델을 표준 NTP(Next Token Prediction 또는 비 MTP)와 MTP의 두 가지 버전으로 출시했습니다.

블로그 / NTP 모델 다운로드 / MTP 모델 다운로드

TL;DR (요약)

  • NTP 모델의 경우, "메모리에 맞는 한 가장 큰(고용량) 양자화 모델을 선택하라"는 전략이 놀랍도록 잘 통했습니다.
  • 낮은 bpw(비트 당 웨이트 수)가 무조건 더 좋은 것은 아니었습니다. 프롬프트 처리 및 토큰 생성 속도를 포함하여, 저희가 출시한 가장 큰 모델이 품질과 속도 측면에서 타의 추종을 불허하여 압도하기 매우 어려웠습니다.
  • MTP는 GPU에서 실질적인 생성 속도 향상(보통 20~40%)을 가져왔지만, 추가적인 메모리 점유율로 인해 구동 가능한 모델의 크기 기준이 달라질 수 있습니다.
  • MTP의 속도 향상은 작업 부하(워크로드)에 따라 크게 달라집니다.
  • 테스트 결과 CPU에서의 MTP는 매력적이지 않았으므로, CPU 환경에서는 여전히 NTP를 권장합니다.
  • 저희는 이번 출시에서 MMLU 평가를 제외했습니다. Qwen 3.6이 원본(Full precision) 모델에서도 답변 형식 준수 문제를 보였기 때문에, 양자화 비교 지표로서 유의미한 결과를 내기 어려웠기 때문입니다.

이번 출시에서는 단순한 모델 공개를 넘어, 다양한 하드웨어에 대한 비교 연구에 초점을 맞추려고 노력했습니다. 원본 모델과 폭넓은 양자화 변형 모델들을 RTX 4090, 5090, Pro 6000, 4080, 5060 Ti는 물론 Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 등에서 벤치마크했습니다. 이번 비교에 포함된 다른 퀀타이저(quantizer) 제작자분들(Bartowski, Unsloth, Mudler, AesSedai)에게도 큰 감사를 전합니다. 모든 단일 양자화 모델을 평가하는 데 시간을 너무 많이 들이면 독자분들이 결과를 보실 일이 없을 수 있기에*(또는 3.7 버전이 나오기 전에 지쳐버릴 수 있으므로 ;)* 각 퀀타이저에서 가장 추천받는 몇 가지 양자화 모델만 선택했습니다.

NTP의 핵심 결과는 다소 직관에 반했습니다. 보통은 더 낮은 bpw를 가진 모델이 속도 면에서 확실히 승리할 것으로 기대합니다. 하지만 이번에는 저희가 출시한 가장 큰 용량의 모델이 품질뿐만 아니라 프롬프트 처리 및 토큰 생성 속도에서도 계속해서 경쟁력을 유지했습니다. 따라서 bpw는 무작정 최소화해야 하는 대상이 아닙니다. 더 큰 모델이 사용자의 메모리와 컨텍스트 예산에 맞다면, 여전히 더 나은 선택일 수 있습니다.

16GB 메모리를 가진 장치나 Raspberry Pi 5 등 하드웨어 특유의 예외 상황이 존재하기 때문에, 모든 내용을 여기에 압축하기보다는 자세한 권장 사항과 차트를 블로그에 게시했습니다.

MTP의 경우 트레이드오프가 다릅니다. GPU 환경에서는 실질적인 생성 속도 향상(보통 20~40%, 이는 작업 부하에 크게 의존하므로 테스트가 필요함)을 확인했습니다. 그러나 MTP는 런타임 메모리도 증가시켜서, 16GB GPU 환경에서는 저희의 컨텍스트 설정 기준에 따라 더 큰 MTP 모델을 실제로 구동할 수 없었으며, 결과적으로 'GPU-2 MTP 모델'이 실용적인 권장 사항이 되었습니다. 또한 MTP 결과 역시 동일한 bpw 관찰 결과를 뒷받침하는데, 특정 상황에서는 더 큰 모델의 처리량(Throughput)이 더 작은 모델을 따라잡았습니다.

테스트 결과 CPU에서의 MTP는 매력적이지 않았습니다. 원래도 CPU는 프롬프트 처리 속도가 느린데, MTP는 이를 더 악화시킵니다. 따라서 현재로서는 CPU 사용자에게 계속 NTP를 권장합니다.

방법론 참고 사항: 저희는 Qwen 3.5에서는 보지 못했던 답변 형식 준수 문제를 Qwen 3.6에서 발견했습니다. 여러 MMLU 평가 항목에서, t

원문 보기
원문 보기 (영어)
Hey r/LocalLLaMA, We’ve released our ByteShape Qwen 3.6 35B GGUF quantizations in two families: standard NTP (Next Token Prediction or non-MTP) and MTP. [Blog](https://byteshape.com/blogs/Qwen3.6-35B-A3B/) / [Download NTP Models](https://huggingface.co/byteshape/Qwen3.6-35B-A3B-GGUF) / [Download MTP Models](https://huggingface.co/byteshape/Qwen3.6-35B-A3B-MTP-GGUF) **TL;DR** * For NTP, “pick the largest quant that fits” worked surprisingly well. * Lower bpw was not automatically better: our largest model was very hard to beat on quality/speed, including prompt processing and token generation. * MTP gave a real GPU generation-speed boost, usually around 20–40%, but the extra memory footprint can change what fits. * MTP speedup is heavily workload dependent. * CPU MTP was not attractive in our tests, so our CPU recommendation remains NTP. * We excluded MMLU from this release because Qwen 3.6 showed answer-format compliance issues in full precision, making it a noisy quantization-comparison signal. For this release, we tried to make the comparison more of a small hardware study than just a model drop. We benchmarked the original model and a broader set of quantized variants across RTX 4090, 5090, Pro 6000, 4080, 5060 Ti, plus Intel i7, Intel Ultra 7, Ryzen 9, and Raspberry Pi 5. Shoutout to the quantizers we included in the comparisons: Bartowski, Unsloth, Mudler, and AesSedai. We picked a few of the most recommended quants from each of the quantizers, since you probably wouldn’t care about these results if we took the time to evaluate every single quant *(or once 3.7 comes out ;) )*. The main NTP result was a bit counterintuitive. Usually, you expect smaller bpw quants to win clearly on speed. Here our largest release variant often stayed competitive not only in quality but also in prompt processing and token generation. **So bpw is not something to minimize blindly: if the larger model fits your memory and context budget, it may still be the better choice.** There are hardware-specific exceptions, especially on 16GB devices and Raspberry Pi 5, so we put the full recommendations and plots in the blog rather than trying to compress all of them here. For MTP, the trade-off is different. On GPUs, we saw a meaningful generation-speed boost, usually around 20 - 40% (this is heavily workload dependent and requires your testing). But MTP also increases runtime memory, so on 16GB GPUs the larger MTP model was no longer practical at our context settings, making model GPU-2 MTP the usable recommendation. The MTP results also support the same bpw observation: in some cases, the larger model basically catches up with the smaller model in throughput. CPU MTP was not attractive in our tests. Prompt processing is already slow on CPUs, and MTP makes it worse. **For now, our CPU recommendation remains NTP.** Methodology note: we found an answer-format compliance issue in Qwen 3.6 that we did not see in the same way with Qwen 3.5. In several MMLU cases, th
관련 소식