r/LocalLLaMA • 65일 전

V100 환경에서 Qwen3.6 27B 초당 1,000토큰 생성 달성

IMP

6/10

핵심 요약

NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델을 구동하여 최대 초당 1,000토큰(tps)의 생성 속도를 달성하는 실험 결과가 공유되었습니다. 다중 사용자 동시 처리(배치 128) 시에는 엄청난 속도를 보여주며, 단일 사용자 기준으로는 MTP(다중 토큰 예측) 없이도 초당 80토큰의 생성 속도와 초당 3,000토큰의 처리 속도를 기록했습니다. 이는 구형 GPU인 V100으로도 대규모 모델을 상당히 쾌적하게 구동할 수 있음을 보여주는 의미 있는 벤치마크입니다.

번역된 본문

이 설정(환경)에서 생성 속도의 절대적인 최고 수준(best case scenario)이 어떨지 확인해보고 싶었는데, 기대 이상이었습니다. 128개의 동시 요청(concurrent requests)은 제가 실제로 필요로 하는 규모와는 거리가 멀지만, 엄청난 숫자가 나오는 걸 보는 건 꽤 재미있습니다. 단일 사용자(배치 128이 아닌 배치 1) 기준으로는 MTP(Multi-Token Prediction)를 사용하지 않았음에도 생성 속도는 초당 약 80토큰, 프롬프트 처리 속도(processing)는 초당 3,000토큰을 기록했습니다!

원문 보기

원문 보기 (영어)

I wanted to see what the absolute best case scenario for generation on this setup was and was not disappointed. 128 concurrent requests is so far removed from what I need but it’s funny to see big number. For single user (batch 1 not 128) the generation is around 80t/s with 3000 t/s processing,no mtp!!

오픈소스 모델 벤치마크 GPU 인퍼런스 Qwen 로컬 AI

변호사의 로컬 AI 법률 문서 작성기: V100 클러스터 구축기

한 변호사가 V100 12개와 RTX 3090 등 총 16개의 GPU를 활용해 법률 문서 초안을 자동 작성하는 로컬 AI 시스템을 완성했습니다. 실험 결과 V100 환경에서는 일반적인 Dense 모델보다 MoE(Mixture of Experts) 모델이 압도적인 처리 속도를 보여주어 시스템 전체를 MoE 중심으로 재구성했습니다. 여러 로컬 모델이 각자의 역할을 나누어 수행하는 오케스트레이터 구조를 통해 고수준의 법률 문서를 빠르고 정확하게 생성해 내는 것이 이 프로젝트의 핵심입니다.

로컬 AI 법률 AI 자동화 오픈소스 LLM