단일 RTX 3090으로 85 TPS·12만5천 컨텍스트 구현
알리바바의 Qwen3.6-27B 모델이 출시된 지 하루 만에, 단일 소비자용 그래픽 카드(RTX 3090 24GB)에서 데이터센터급 추론 속도(85 TPS)와 12만 5천 토큰의 컨텍스트, 그리고 비전(Vision) 기능을 구현한 오픈소스 스택이 등장했습니다. 이는 기존 API 의존 없이도 GPT급 속도와 개인정보 보호, 무료 추론 비용을 모두 누릴 수 있게 되었음을 의미합니다. 저자는 vLLM의 버그 패치 4개와 최적화를 통해 이론적으로 불가능해 보이던 하드웨어 한계를 극복한 구체적 과정을 공유합니다.
Qwen3.6-27B를 위한 하룻밤의 스택: 단일 RTX 3090에서 85 TPS, 125K 컨텍스트, 비전(Vision) 구현하기 Wasif Basharat 18분 읽기 · 방금 전
-- 듣기 공유
Qwen3.6이 공개되고 하루 뒤: 소비자용 24GB 그래픽 카드 하나, CUDA 그래프 버그, 4개의 패치, 그리고 이 모델을 완벽하게 구동시킨 스택에 대한 이야기입니다.
[핵심 요약] 1× RTX 3090 (24GB, 230W 전력 제한) 환경에서의 Qwen3.6-27B 성능 ───────────────────────────────────────────── 처리량: 지속 85 TPS / 최대 106 TPS 컨텍스트: 125K 토큰 비전(Vision): 활성화됨 (MoonViT BF16) VRAM: 24GB 중 21.3GB 사용 서버: vLLM · 완전한 OpenAI API 도구 호출(Tools): ✅ 접두사 캐시(Prefix cache): ✅ 추론 디코딩(Spec-decode): MTP n=3 · AL 3.4–3.8 · 수락률 97/95/91%
Lorbus의 공식 모델 카드에 따르면, 같은 모델을 RTX 5090에서 구동할 때 약 60 TPS가 나온다고 명시되어 있습니다. 반면 우리는 VRAM이 25% 적고 순수 연산량이 약 40% 낮은 그래픽 카드에서, 230W의 전력(조용하고 시원함)만으로 지속적으로 85 TPS를 달성했습니다. 아래의 글은 그 방법을 설명합니다.
85 TPS 지속 처리. 106 TPS 최대 처리. 단일 3090에서 100 TPS 장벽을 돌파한 것입니다.
[이 성과가 중요한 이유]
Qwen3.6–27B는 어제 출시되었습니다. 그리고 오늘 아침, 중고로 사도 맥북 에어보다 싼 가격의 GPU에서 데이터센터에 근접한 처리량을 제공하는 오픈소스 스택이 등장했습니다. 본격적인 분석에 앞서 이 점을 곱씹어 볼 만합니다.
• 데이터가 외부로 나가지 않습니다. 규제 대상 워크로드, 개인 메모, 고객 데이터, 사내 코드베이스 등 그동안 GPT급 속도를 쓰기 위해 감수해야 했던 프라이버시 트레이드오프가 사라집니다. 모델이 여러분의 RAID 스토리지에 있는 파일을 직접 읽고, 그래픽 카드 값을 회수하고 나면 추론 비용은 무료입니다.
• 230W 전력 제한에서 85 TPS를 지속하는 3090은 하루에 수백만 개의 토큰을 처리하면서도 전기세는 커피 한 잔 값 수준에 불과합니다. API 지출은 운영 비용이 아니라 하나의 설계 선택지가 됩니다.
• 대기 시간(Latency)은 거의 0에 가깝습니다. 왕복 시간도, 속도 제한도, 전 세계 다른 사용자들과의 큐 대기도 없습니다. 첫 번째 토큰가 로컬 소켓의 속도로 도착합니다. API를 사용할 때 느리게 느껴지던 에이전트 루프가 더 이상 느리지 않으며, 매 턴마다 왕복 시간 비용을 지불하던 도구 호출(Tool-calling) 루프가 극적으로 빨라집니다.
• 가중치(Weights)를 소유합니다. Qwen은 관대한 라이선스로 이 모델을 배포했습니다. 이 모델은 갑작스럽게 지원 중단되거나, 몰래 재조정되거나, 가격이 인상되지 않습니다. 화요일에 여러분의 사용 사례에 잘 맞았던 모델이라면, 금요일이나 내년에도 똑같이 작동합니다.
• 파인튜닝이 주말 프로젝트가 됩니다. 서빙 스택이 검증되면, 특정 도메인에 특화된 LoRA를 교체하는 데 수주가 아니라 몇 시간만 걸립니다. 비전 기반 모델 + 도메인 데이터 = 여러분만의 프라이빗 멀티모달 모델입니다.
중고 소비자용 GPU에서 비전(Vision) + 125K 컨텍스트 + 도구 호출 + 85 TPS를 달성한 것은 이번 주를 기준으로 완전히 새로운 수준의 역량입니다.
이 글의 나머지 부분은 우리가 어떻게 이 성과를 이뤄냈는지, 그리고 여러분이 오늘 밤 어떻게 여러분의 GPU에 이것을 구현할 수 있는지를 다룹니다.
[모델, 그리고 왜 이 문제가 어려운가]
Qwen3.6–27B는 알리바바의 Qwen 팀이 2026년 4월 22일에 공개한 조밀한(Dense) 비전-언어 모델(Vision-Language Model)입니다. 이는 Qwen3-Next 제품군의 일부로, 하이브리드 어텐션 아키텍처(Hybrid Attention Architecture)를 특징으로 합니다. 즉, DeltaNet(Gated Linear Attention, 순환 상태)과 표준 소프트맥스 어텐션 레이어가 교차로 배치되어 있습니다. 여기에 추론 디코딩(Speculative Decoding)을 위한 네이티브 Multi-Token Prediction(MTP) 헤드가 추가되었습니다.
이론적으로만 보면 소비자용 GPU를 위한 완벽한 꿈의 모델입니다:
- 27B 파라미터 = INT4 기준 약 17GB로, 24GB VRAM에 아주 여유롭습니다.
- 비전 타워는 BF16을 유지하는 소형 MoonViT로 약 0.9GB를 차지합니다.
- MTP 헤드 = 추론 엔진이 이를 잘 다루기만 하면 공짜로 추론 디코딩을 사용할 수 있습니다.
하지만 실제로는, 이러한 '이론적인' 전제들이 소비자용 하드웨어에서는 보이지 않는 벽에 부딪힙니다. 가장 큰 문제 3가지는 다음과 같습니다:
DeltaNet의 순환 상태는 기존의 모든 표준 추론 디코딩 파이프라인을 망가뜨립니다. 초안 토큰을 거부하려면 상태를 되돌려야(roll back) 하는데, 선형 어텐션(Linear Attention) 순환은 되돌릴 수 없습니다. vLLM, SGLang, llama.cpp 메인라인 모두 초기 상태에서는 이를 올바르게 처리하지 못했습니다.
대부분의 INT4 양자화(Quantization)는 MTP 헤드를 제외하거나, 이 역시 INT4로 양자화해버립니다. 어느 쪽이든 vLLM의 Qwen3_5MTP 로더는 기대하던 가중치(mtp.fc.weight)를 찾지 못합니다. 결과적으로 MTP가 아무런 매개변수 없이 조용히 로드되고(→ 0%의 초안 수락률), 속도 향상은커녕 오버헤드 비용만 치르게 됩니다.
TurboQuant KV 캐시(125K 컨텍스트를 가능하게 하는 핵심 요소)는 하이브리드 모델에서 로드되기를 거부합니다. vLLM은 NotImplementedError 오류를 발생시킵니다.