단일 RTX 3090으로 85 TPS·12만5천 컨텍스트 구현
알리바바의 Qwen3.6-27B 모델이 출시된 지 하루 만에, 단일 소비자용 그래픽 카드(RTX 3090 24GB)에서 데이터센터급 추론 속도(85 TPS)와 12만 5천 토큰의 컨텍스트, 그리고 비전(Vision) 기능을 구현한 오픈소스 스택이 등장했습니다. 이는 기존 API 의존 없이도 GPT급 속도와 개인정보 보호, 무료 추론 비용을 모두 누릴 수 있게 되었음을 의미합니다. 저자는 vLLM의 버그 패치 4개와 최적화를 통해 이론적으로 불가능해 보이던 하드웨어 한계를 극복한 구체적 과정을 공유합니다.