Qwen 3.6 35B 양자화 벤치마크: NTP vs MTP
ByteShape가 Qwen 3.6 35B 모델의 NTP(기존)와 MTP 방식 GGUF 양자화 결과를 공개했습니다. GPU 환경에서는 MTP 방식이 토큰 생성 속도를 최대 20~40% 향상시켰으나, CPU 환경에서는 오히려 성능 저하가 발생해 NTP 사용을 권장합니다. 또한 무조건 낮은 압축률(bpw)을 선택하기보다, 메모리가 허용하는 한 더 큰 용량의 모델을 쓰는 것이 속도와 품질 면에서 유리한 결과를 보였습니다.
r/LocalLLaMA 여러분 안녕하세요,
저희는 ByteShape Qwen 3.6 35B GGUF 양자화 모델을 표준 NTP(Next Token Prediction 또는 비 MTP)와 MTP의 두 가지 버전으로 출시했습니다.
블로그 / NTP 모델 다운로드 / MTP 모델 다운로드
TL;DR (요약)
- NTP 모델의 경우, "메모리에 맞는 한 가장 큰(고용량) 양자화 모델을 선택하라"는 전략이 놀랍도록 잘 통했습니다.
- 낮은 bpw(비트 당 웨이트 수)가 무조건 더 좋은 것은 아니었습니다. 프롬프트 처리 및 토큰 생성 속도를 포함하여, 저희가 출시한 가장 큰 모델이 품질과 속도 측면에서 타의 추종을 불허하여 압도하기 매우 어려웠습니다.
- MTP는 GPU에서 실질적인 생성 속도 향상(보통 20~40%)을 가져왔지만, 추가적인 메모리 점유율로 인해 구동 가능한 모델의 크기 기준이 달라질 수 있습니다.
- MTP의 속도 향상은 작업 부하(워크로드)에 따라 크게 달라집니다.
- 테스트 결과 CPU에서의 MTP는 매력적이지 않았으므로, CPU 환경에서는 여전히 NTP를 권장합니다.
- 저희는 이번 출시에서 MMLU 평가를 제외했습니다. Qwen 3.6이 원본(Full precision) 모델에서도 답변 형식 준수 문제를 보였기 때문에, 양자화 비교 지표로서 유의미한 결과를 내기 어려웠기 때문입니다.
이번 출시에서는 단순한 모델 공개를 넘어, 다양한 하드웨어에 대한 비교 연구에 초점을 맞추려고 노력했습니다. 원본 모델과 폭넓은 양자화 변형 모델들을 RTX 4090, 5090, Pro 6000, 4080, 5060 Ti는 물론 Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 등에서 벤치마크했습니다. 이번 비교에 포함된 다른 퀀타이저(quantizer) 제작자분들(Bartowski, Unsloth, Mudler, AesSedai)에게도 큰 감사를 전합니다. 모든 단일 양자화 모델을 평가하는 데 시간을 너무 많이 들이면 독자분들이 결과를 보실 일이 없을 수 있기에*(또는 3.7 버전이 나오기 전에 지쳐버릴 수 있으므로 ;)* 각 퀀타이저에서 가장 추천받는 몇 가지 양자화 모델만 선택했습니다.
NTP의 핵심 결과는 다소 직관에 반했습니다. 보통은 더 낮은 bpw를 가진 모델이 속도 면에서 확실히 승리할 것으로 기대합니다. 하지만 이번에는 저희가 출시한 가장 큰 용량의 모델이 품질뿐만 아니라 프롬프트 처리 및 토큰 생성 속도에서도 계속해서 경쟁력을 유지했습니다. 따라서 bpw는 무작정 최소화해야 하는 대상이 아닙니다. 더 큰 모델이 사용자의 메모리와 컨텍스트 예산에 맞다면, 여전히 더 나은 선택일 수 있습니다.
16GB 메모리를 가진 장치나 Raspberry Pi 5 등 하드웨어 특유의 예외 상황이 존재하기 때문에, 모든 내용을 여기에 압축하기보다는 자세한 권장 사항과 차트를 블로그에 게시했습니다.
MTP의 경우 트레이드오프가 다릅니다. GPU 환경에서는 실질적인 생성 속도 향상(보통 20~40%, 이는 작업 부하에 크게 의존하므로 테스트가 필요함)을 확인했습니다. 그러나 MTP는 런타임 메모리도 증가시켜서, 16GB GPU 환경에서는 저희의 컨텍스트 설정 기준에 따라 더 큰 MTP 모델을 실제로 구동할 수 없었으며, 결과적으로 'GPU-2 MTP 모델'이 실용적인 권장 사항이 되었습니다. 또한 MTP 결과 역시 동일한 bpw 관찰 결과를 뒷받침하는데, 특정 상황에서는 더 큰 모델의 처리량(Throughput)이 더 작은 모델을 따라잡았습니다.
테스트 결과 CPU에서의 MTP는 매력적이지 않았습니다. 원래도 CPU는 프롬프트 처리 속도가 느린데, MTP는 이를 더 악화시킵니다. 따라서 현재로서는 CPU 사용자에게 계속 NTP를 권장합니다.
방법론 참고 사항: 저희는 Qwen 3.5에서는 보지 못했던 답변 형식 준수 문제를 Qwen 3.6에서 발견했습니다. 여러 MMLU 평가 항목에서, t