윈도우 네이티브 vLLM으로 RTX 3090서 Qwen3.6-27B 초당 72토큰 달성
Windows 환경에서 WSL이나 Docker 없이 네이티브로 구동되는 오픈소스 vLLM 패치 및 포터블 런처가 공개되었습니다. RTX 3090 단일 GPU에서 Qwen3.6-27B(INT4 양자화) 모델을 최대 초당 72토큰(tok/s) 속도로 실행할 수 있으며, 복잡한 파이썬 환경 설정 없이 간편하게 설치할 수 있다는 것이 핵심입니다. 3090/4090/5090 등 엔비디아 최신 아키텍처 사용자가 로컬 환경에서 대규모 언어 모델을 쉽고 빠르게 테스트해 볼 수 있는 실용적인 도구입니다.
이 프로젝트의 핵심은 WSL 없이 Windows 환경 자체에서 네이티브로 구동된다는 점입니다. 설치가 간편하고, 오픈 소스이며, 원격 측정(telemetry) 기능도 없습니다. 무언가를 팔거나 홍보하려는 목적이 아닙니다: https://github.com/devnen/qwen3.6-windows-server
성능 지표 (RTX 3090, Windows 10 기준):
- 짧은 프롬프트: 초당 72 토큰 (72 tok/s)
- 긴 프롬프트 (~25k 토큰): 초당 64.5 토큰
- 127k 컨텍스트 환경: 초당 53.4 토큰 (단일 GPU)
- PP(Pipeline Parallelism)=2 설정 시 160k 컨텍스트 처리 (2×3090 GPU)
솔직히 말씀드리면, 이 수치가 r/LocalLLaMA 커뮤니티의 최고 기록은 아닙니다. 리눅스 환경에서 TurboQuant 3-bit KV를 적용한 3090에서는 80–82 tok/s를, 5090에서는 160 tok/s를 기록한 적이 있습니다. 하지만 제가 만든 런처와 패치된 vLLM을 사용하면 Windows 환경에서도 그 격차를 크게 줄일 수 있습니다.
간편한 설치 방법:
- GitHub Release 페이지에서
qwen3.6-windows-server-portable-x64.zip을 다운로드합니다. - 원하는 곳에 압축을 풉니다. 관리자 권한, pip, 또는 파이썬 설치가 필요하지 않습니다.
start.bat파일을 더블클릭하고 스냅샷을 선택한 뒤 Enter 키를 누릅니다.http://127.0.0.1:5001/v1주소에서 OpenAI와 호환되는 API 엔드포인트가 실행됩니다.
이 프로그램이 작동하도록 몇 가지 문제를 수정한 Windows용 vLLM 포크(fork)를 직접 빌드해야 했습니다. 저는 사전 빌드된 wheel 파일을 포함하고 있는 포터블 런처를 제공하고 있습니다.
처음 실행하면 내장된 파이썬 환경에 vLLM wheel 파일과 종속성들이 설치됩니다(약 5~15분 소요, 최초 1회만 해당). 이후 HuggingFace에서 Lorbus AutoRound INT4 양자화 모델을 자동으로 다운로드할지 물어봅니다(이미 모델이 있는 경우 제외). 두 번째 실행부터는 이 과정을 건너뛰고 바로 TUI(터미널 사용자 인터페이스)로 진입합니다.
Windows 10 환경과 2개의 RTX 3090, 그리고 Lorbus AutoRound INT4 양자화 모델로 테스트를 완료했습니다. Ampere, Ada, Blackwell 아키텍처 기반의 모든 그래픽 카드(3090/4090/5090/A6000)에서 작동할 것으로 예상됩니다. 참고로 파스칼(Pascal), 튜링(Turing), 인텔 Arc, 또는 AMD 그래픽 카드에서는 작동하지 않습니다.
리눅스용으로도 경쟁력 있는 성능을 보여주는 유사한 런처와 패치된 vLLM 버전을 개발 중이지만, 아직 작업 진행 중(WIP)인 상태입니다.
Windows 환경에서 RTX 3090, 4090, 또는 5090을 사용 중이시라면 이 도구를 사용해 보시고 여러분의 성능 수치를 공유해 주시면 감사하겠습니다.
자세한 내용, 패치, 벤치마크, 그리고 설정 스냅샷은 다음 링크에서 확인하실 수 있습니다: https://github.com/devnen/qwen3.6-windows-server