Qwen3.5 35B 비검열 모델 다양한 포맷 출시
알리바바의 오픈소스 모델 Qwen3.5 35B A3B를 기반으로 한 비검열(UnCensored) 커스텀 모델과 Native MTP(다음 토큰 예측)가 완벽히 보존된 버전이 공개되었습니다. 이 모델은 Safetensors, GGUF, NVFP4, GPTQ-Int4 등 다양한 형식과 양자화 포맷을 지원하여 로컬 환경에서의 활용성을 극대화한 것이 특징입니다.
알리바바의 오픈소스 모델 Qwen3.5 35B A3B를 기반으로 한 비검열(UnCensored) 커스텀 모델과 Native MTP(다음 토큰 예측)가 완벽히 보존된 버전이 공개되었습니다. 이 모델은 Safetensors, GGUF, NVFP4, GPTQ-Int4 등 다양한 형식과 양자화 포맷을 지원하여 로컬 환경에서의 활용성을 극대화한 것이 특징입니다.
NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델을 구동하여 최대 초당 1,000토큰(tps)의 생성 속도를 달성하는 실험 결과가 공유되었습니다. 다중 사용자 동시 처리(배치 128) 시에는 엄청난 속도를 보여주며, 단일 사용자 기준으로는 MTP(다중 토큰 예측) 없이도 초당 80토큰의 생성 속도와 초당 3,000토큰의 처리 속도를 기록했습니다. 이는 구형 GPU인 V100으로도 대규모 모델을 상당히 쾌적하게 구동할 수 있음을 보여주는 의미 있는 벤치마크입니다.
오픈소스 AI 모델 분야에서 두각을 나타내고 있는 알리바바의 큐원(Qwen)이 270억(27B) 매개변수 규모의 새로운 모델을 출시할 가능성이 높습니다. 이는 기존 라인업의 빈자리를 채울 중요한 릴리즈로, AI 실무자들에게 오픈소스 기반의 강력한 중형급 모델 선택지를 제공할 것으로 보입니다. 정확한 출시 일정 및 로드맵은 현재 내부 조율 중인 것으로 전해집니다.
오픈소스 AI 커뮤니티 사용자가 중국의 Qwen(치안)이 발표할 3.7 버전 모델을 기다리며 게시한 유머러스한 게시글입니다. 해당 유저는 27B(27B) 및 122B(122B) 파라미터 모델의 공개를 간절히 희망하고 있습니다. 이는 화제의 Qwen 새 모델에 대한 글로벌 개발자들의 높은 기대감과 관심을 잘 보여줍니다.
LLaMA.cpp 환경에서 Qwen 모델을 대상으로 다중 토큰 예측(MTP) 기술과 양자화 기법인 TurboQuant를 성공적으로 통합했습니다. 이를 통해 로컬 환경(MacBook Pro)에서 텍스트 생성 속도를 약 40% 향상시키고 높은 수용율(90%)을 달성하며 추론 성능을 크게 개선했습니다. 이 성과는 고성능 오픈소스 모델을 일반 로컬 하드웨어에서도 빠르고 효율적으로 구동할 수 있음을 입증합니다.
RTX PRO 6000 GPU 2대로 약 20시간 동안 Qwen3.6-27B와 Coder-Next 모델을 심층 비교한 결과, 두 모델은 전반적인 벤치마크에서 통계적으로 비등한 성능을 보였습니다. 흥미롭게도 Qwen3.6-27B는 '사고(Thinking)' 기능을 비활성화했을 때 오히려 결과물의 일관성이 95.8%로 가장 높게 나타났으며, Coder-Next는 제한된 비즈니스 문서 작성 등 특정 작업에서 60~100배 낮은 비용으로 완벽한 성공률을 기록해 각기 다른 강점을 입증했습니다.
알리바바 클라우드의 Qwen 팀이 대규모 언어 모델(LLM)의 내부 작동 방식을 해석하고 제어할 수 있는 오픈소스 희소 오토인코더(SAE) 모음인 'Qwen-Scope'를 공개했습니다. 이 도구는 모델의 내부 상태를 인간이 이해할 수 있는 언어나 스타일 같은 개념으로 분해하여, 가중치 수정 없이 실시간으로 모델의 출력을 제어하는 디버깅 및 개발 도구로 활용될 수 있습니다. 이를 통해 개발자들은 값비싼 컴퓨팅 자원을 소모하지 않고도 모델의 오작동을 진단하고 원하는 방향으로 쉽게 평가 및 수정할 수 있게 되었습니다.
Qwen이 TileLang 기반의 고성능 선형 어텐션(Linear Attention) 커널인 FlashQLA를 공개했습니다. 순방향 연산 속도를 2~3배, 역방향 연산 속도를 2배 향상시켰으며, 특히 개인 기기에서 작동하는 에이전트 AI 및 긴 문맥(Long-context) 처리 환경에 최적화된 것이 특징입니다. 메모리 제약이 심한 에지 디바이스 환경에서 실질적인 성능 향상을 이끌어내는 실무적인 하드웨어 최적화 기법을 적용했습니다.
오픈소스 모델인 Qwen 3.6 27B의 세 가지 포맷(BF16, Q4_K_M, Q8_0)에 대한 벤치마크 결과가 공유되었습니다. 로컬 환경에서는 BF16과 비교해 성능은 근소하게 저하되면서도 메모리와 용량을 절반 이상 아낄 수 있는 'Q4_K_M' 포맷이 가장 효율적인 선택지로 평가되었습니다. 최고의 성능을 원한다면 여전히 BF16이 최고이며, 코드 생성 작업이 많지 않은 일반적인 로컬 배포에는 Q4_K_M을 추천하고 있습니다.
오픈소스 AI 커뮤니티(레딧)에서 'Qwen3.6 35B A3B Heretic'라는 이름의 비공식 파인튜닝(미세조정) 모델이 공개되어 화제입니다. 특히 데이터셋 유사도를 나타내는 지표인 KLD(쿨백-라이블러 발산) 값이 0.0015로 극도로 낮아 원본 모델의 성능을 매우 충실히 보존하면서도 특정 분야에서 강력한 성능을 발휘하는 것으로 평가받고 있습니다. 공유된 코드를 보면 이 모델은 복잡한 채팅 템플릿과 이미지·비디오 처리, 함수 호출(Function Calling) 기능을 완벽하게 지원하도록 고도화된 것으로 확인됩니다.
알리바바가 270억 파라미터의 새로운 오픈소스 밀집(Dense) 언어 모델인 Qwen3.6-27B를 공개했습니다. 이 모델은 3,970억 파라미터의 거대한 이전 버전을 거의 모든 코딩 벤치마크에서 압도하며, 훨씬 가벼운 크기로도 뛰어난 성능을 발휘합니다. 개발자들은 복잡한 MoE 구조 없이도 강력한 코딩 및 멀티모달 추론 성능을 활용할 수 있게 되었습니다.
새로운 AI 모델인 Qwen3.6이 추론 과정에서 설정된 정보를 기억하는 능력을 보여주고 있습니다. 사용자는 여러 차례 테스트를 통해 모델이 지정된 숫자를 실제 추론 단계에서 안정적으로 기억해냄을 확인했습니다. 다만 이 기능이 정상적으로 작동하려면 특정 플래그(`preserve_thinking: true`)를 설정해야 하는 중요한 조건이 있습니다.
Simon Willison은 자신의 유명한 '자전거를 타는 펠리컨' 이미지 생성 벤치마크를 통해 알리바이의 Qwen3.6-35B-A3B와 Anthropic의 Claude Opus 4.7을 비교했습니다. 놀랍게도 노트북에서 구동한 21GB 크기의 오픈소스 Qwen 모델이 최상위 독점 모델인 Opus 4.7보다 훨씬 완성도 높은 SVG 그림을 그려냈습니다. 이는 특정 작업에서 로컬 경량 모델이 최고가의 상용 모델을 압도할 수 있다는 흥미로운 결과를 보여줍니다.
Reddit 사용자가 새로 출시된 Gemma 4 모델을 테스트해 보고 훌륭한 성능을 인정했습니다. 하지만 동시에 Qwen 팀이 이룬 높은 수준의 품질과 일반 가용 하드웨어에서도 구동 가능한 넓은 컨텍스트 윈도우(Context Window)의 가치를 더욱 깊이 체감하게 되었다고 평가했습니다. 이는 오픈소스 LLM 시장에서 소비자 하드웨어 최적화와 성능의 균형이 얼마나 중요한지를 보여주는 실무적 지표입니다.