#Qwen3.6

단일 RTX 3090으로 85 TPS·12만5천 컨텍스트 구현

알리바바의 Qwen3.6-27B 모델이 출시된 지 하루 만에, 단일 소비자용 그래픽 카드(RTX 3090 24GB)에서 데이터센터급 추론 속도(85 TPS)와 12만 5천 토큰의 컨텍스트, 그리고 비전(Vision) 기능을 구현한 오픈소스 스택이 등장했습니다. 이는 기존 API 의존 없이도 GPT급 속도와 개인정보 보호, 무료 추론 비용을 모두 누릴 수 있게 되었음을 의미합니다. 저자는 vLLM의 버그 패치 4개와 최적화를 통해 이론적으로 불가능해 보이던 하드웨어 한계를 극복한 구체적 과정을 공유합니다.

로컬 추론 오픈소스 LLM vLLM

r/LocalLLaMA • 40일 전

IMP 7

Gemma 4 26B-A4B GGUF 벤치마크 분석

Unsloth이 Gemma 4 26B-A4B 및 Qwen3.6 모델의 GGUF 양자화(Quantization) 버전별 성능을 비교하는 벤치마크를 발표했습니다. KL Divergence 지표를 통해 원본 모델의 정확도를 얼마나 잘 보존하는지 분석한 결과, Unsloth의 GGUF 포맷이 22개 중 21개 크기에서 최고 성능을 기록하며 압도적인 우위를 점했습니다. 또한 기존 Q6_K 및 MLX 4-bit 양자화 방식의 정확도를 개선하고, 16GB VRAM 환경에 맞춘 새로운 UD-IQ4_NL_XL 포맷을 추가로 제공합니다.

로컬-LLM 양자화 Gemma-4

The Decoder • 43일 전

IMP 8

알리바바 Qwen3.6, 구글 Gemma 4 능가

알리바바가 350억 파라미터의 새로운 오픈소스 AI 모델 'Qwen3.6-35B-A3B'를 공개했습니다. 이 모델은 Mixture-of-Experts 기술을 적용해 연산 비용을 줄이면서도 코딩 및 추론 벤치마크에서 구글의 Gemma 4를 압도했으며, 클로드 소네 4.5와도 대등한 성능을 발휘합니다. 사용자는 Qwen Studio, API, 또는 허깅페이스를 통해 즉시 이 모델을 활용할 수 있습니다.

알리바바 Qwen3.6 오픈소스 모델