r/LocalLLaMA • 88일 전

윈도우 네이티브 vLLM으로 RTX 3090서 Qwen3.6-27B 초당 72토큰 달성

IMP

7/10

핵심 요약

Windows 환경에서 WSL이나 Docker 없이 네이티브로 구동되는 오픈소스 vLLM 패치 및 포터블 런처가 공개되었습니다. RTX 3090 단일 GPU에서 Qwen3.6-27B(INT4 양자화) 모델을 최대 초당 72토큰(tok/s) 속도로 실행할 수 있으며, 복잡한 파이썬 환경 설정 없이 간편하게 설치할 수 있다는 것이 핵심입니다. 3090/4090/5090 등 엔비디아 최신 아키텍처 사용자가 로컬 환경에서 대규모 언어 모델을 쉽고 빠르게 테스트해 볼 수 있는 실용적인 도구입니다.

번역된 본문

이 프로젝트의 핵심은 WSL 없이 Windows 환경 자체에서 네이티브로 구동된다는 점입니다. 설치가 간편하고, 오픈 소스이며, 원격 측정(telemetry) 기능도 없습니다. 무언가를 팔거나 홍보하려는 목적이 아닙니다: https://github.com/devnen/qwen3.6-windows-server

성능 지표 (RTX 3090, Windows 10 기준):

짧은 프롬프트: 초당 72 토큰 (72 tok/s)
긴 프롬프트 (~25k 토큰): 초당 64.5 토큰
127k 컨텍스트 환경: 초당 53.4 토큰 (단일 GPU)
PP(Pipeline Parallelism)=2 설정 시 160k 컨텍스트 처리 (2×3090 GPU)

솔직히 말씀드리면, 이 수치가 r/LocalLLaMA 커뮤니티의 최고 기록은 아닙니다. 리눅스 환경에서 TurboQuant 3-bit KV를 적용한 3090에서는 80–82 tok/s를, 5090에서는 160 tok/s를 기록한 적이 있습니다. 하지만 제가 만든 런처와 패치된 vLLM을 사용하면 Windows 환경에서도 그 격차를 크게 줄일 수 있습니다.

간편한 설치 방법:

GitHub Release 페이지에서 qwen3.6-windows-server-portable-x64.zip을 다운로드합니다.
원하는 곳에 압축을 풉니다. 관리자 권한, pip, 또는 파이썬 설치가 필요하지 않습니다.
start.bat 파일을 더블클릭하고 스냅샷을 선택한 뒤 Enter 키를 누릅니다.
http://127.0.0.1:5001/v1 주소에서 OpenAI와 호환되는 API 엔드포인트가 실행됩니다.

이 프로그램이 작동하도록 몇 가지 문제를 수정한 Windows용 vLLM 포크(fork)를 직접 빌드해야 했습니다. 저는 사전 빌드된 wheel 파일을 포함하고 있는 포터블 런처를 제공하고 있습니다.

처음 실행하면 내장된 파이썬 환경에 vLLM wheel 파일과 종속성들이 설치됩니다(약 5~15분 소요, 최초 1회만 해당). 이후 HuggingFace에서 Lorbus AutoRound INT4 양자화 모델을 자동으로 다운로드할지 물어봅니다(이미 모델이 있는 경우 제외). 두 번째 실행부터는 이 과정을 건너뛰고 바로 TUI(터미널 사용자 인터페이스)로 진입합니다.

Windows 10 환경과 2개의 RTX 3090, 그리고 Lorbus AutoRound INT4 양자화 모델로 테스트를 완료했습니다. Ampere, Ada, Blackwell 아키텍처 기반의 모든 그래픽 카드(3090/4090/5090/A6000)에서 작동할 것으로 예상됩니다. 참고로 파스칼(Pascal), 튜링(Turing), 인텔 Arc, 또는 AMD 그래픽 카드에서는 작동하지 않습니다.

리눅스용으로도 경쟁력 있는 성능을 보여주는 유사한 런처와 패치된 vLLM 버전을 개발 중이지만, 아직 작업 진행 중(WIP)인 상태입니다.

Windows 환경에서 RTX 3090, 4090, 또는 5090을 사용 중이시라면 이 도구를 사용해 보시고 여러분의 성능 수치를 공유해 주시면 감사하겠습니다.

자세한 내용, 패치, 벤치마크, 그리고 설정 스냅샷은 다음 링크에서 확인하실 수 있습니다: https://github.com/devnen/qwen3.6-windows-server

원문 보기

원문 보기 (영어)

The angle here is native Windows, no WSL. Simple installation, open source, no telemetry. Not selling or promoting anything: https://github.com/devnen/qwen3.6-windows-server **Numbers (RTX 3090, Windows 10):** - 72 tok/s short prompt - 64.5 tok/s long prompt (~25k tokens) - 53.4 tok/s at 127k ctx (single GPU) - 160k ctx on PP=2 (2×3090 GPUs) Honestly, these aren't r/LocalLLaMA records. Community has hit 80–82 tok/s on a 3090 with TurboQuant 3-bit KV, and 160 tok/s on a 5090 on Linux. My launcher and patched vLLM closes that gap on Windows. **Simple installation:** 1. Download `qwen3.6-windows-server-portable-x64.zip` from the Release 2. Unzip anywhere. No admin, no pip, no Python required 3. Double-click `start.bat`, pick a snapshot, hit Enter 4. OpenAI-compatible endpoint at `http://127.0.0.1:5001/v1` I had to build a patched vLLM fork for Windows to fix a few issues and make this work. I am including a portable launcher that ships the prebuilt wheel. First run installs the bundled vLLM wheel + deps into the embedded Python (~5–15 min, one-time), then offers to auto-download the Lorbus AutoRound INT4 quant from HuggingFace if you don't already have it. Subsequent launches skip straight to the TUI. Tested on Windows 10 + 2× RTX 3090 with the Lorbus AutoRound INT4 quant. Should work on any Ampere/Ada/Blackwell card (3090/4090/5090/A6000). Won't work on Pascal, Turing, Arc, or AMD. I have a similar launcher and a patched vLLM for Linux with some very competitive numbers, but it is still a work in progress. If you're on a 3090/4090/5090 on Windows, give it a spin and post your numbers. Full details, patches, benchmarks, and config snapshots: https://github.com/devnen/qwen3.6-windows-server

vLLM 로컬 LLM Windows 네이티브 Qwen 모델 오픈소스 도구

PFlash: RTX 3090에서 128K 기준 llama.cpp 대비 프리필 10배 빠름

오픈소스로 공개된 ‘PFlash’는 소형 드래프트 모델로 토큰 중요도를 평가해 중요한 구간만 처리하는 ‘추측적 프리필(Speculative Prefill)’ 기법을 적용했습니다. 그 결과, RTX 3090(24GB) 환경에서 128K 길이의 프롬프트 처리 시 기존 llama.cpp보다 첫 토큰 생성 시간(TTFT)을 약 10.4배 단축시켰습니다. C++/CUDA로만 작성되어 Python 기반 오버헤드 없이 24GB 메모리 내에서 추론 전체가 실행되는 것이 특징입니다.

추론 속도 최적화 llama.cpp 오픈소스 LLM