BL
r/LocalLLaMA • 6일 전
V100 환경에서 Qwen3.6 27B 초당 1,000토큰 생성 달성
IMP 6/10
핵심 요약
NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델을 구동하여 최대 초당 1,000토큰(tps)의 생성 속도를 달성하는 실험 결과가 공유되었습니다. 다중 사용자 동시 처리(배치 128) 시에는 엄청난 속도를 보여주며, 단일 사용자 기준으로는 MTP(다중 토큰 예측) 없이도 초당 80토큰의 생성 속도와 초당 3,000토큰의 처리 속도를 기록했습니다. 이는 구형 GPU인 V100으로도 대규모 모델을 상당히 쾌적하게 구동할 수 있음을 보여주는 의미 있는 벤치마크입니다.
번역된 본문
이 설정(환경)에서 생성 속도의 절대적인 최고 수준(best case scenario)이 어떨지 확인해보고 싶었는데, 기대 이상이었습니다. 128개의 동시 요청(concurrent requests)은 제가 실제로 필요로 하는 규모와는 거리가 멀지만, 엄청난 숫자가 나오는 걸 보는 건 꽤 재미있습니다. 단일 사용자(배치 128이 아닌 배치 1) 기준으로는 MTP(Multi-Token Prediction)를 사용하지 않았음에도 생성 속도는 초당 약 80토큰, 프롬프트 처리 속도(processing)는 초당 3,000토큰을 기록했습니다!
원문 보기 (영어)
I wanted to see what the absolute best case scenario for generation on this setup was and was not disappointed. 128 concurrent requests is so far removed from what I need but it’s funny to see big number. For single user (batch 1 not 128) the generation is around 80t/s with 3000 t/s processing,no mtp!!
관련 소식