#Qwen

헤츠너, LLM 추론 API 실험 공개

저렴한 서버 호스팅으로 유명한 헤츠너(Hetzner)가 자체 인프라 기반의 LLM 추론 API 실험을 시작했습니다. 오픈AI 호환 API 형태로 제공되며, 현재는 Qwen 35B 모델 하나만 지원하지만 토큰당 224개의 매우 빠른 처리 속도를 보여줍니다. 아직 상용화 단계는 아니지만, 클라우드 사업자가 저비용 고효율 GPU 인프라를 무기로 LLM 서비스 시장에 진출하려는 시도라는 점에서 주목할 만합니다.

헤츠너 LLM 추론 오픈AI API

MarkTechPost • 9일 전

IMP 8

알리바바, 2.4조 매개변수 Qwen3.8-Max 프리뷰 공개

알리바바의 Qwen 팀이 2.4조 개의 매개변수를 가진 멀티모달 MoE 모델인 Qwen3.8-Max-Preview를 공개했습니다. 해당 모델은 토큰(Token) 플랫폼 등에서 정가의 10% 가격으로 테스트가 가능하지만, 벤치마크 점수나 라이선스 등 핵심 스펙은 아직 공개되지 않아 기술적 검증이 필요한 상태입니다.

알리바바 Qwen AI모델

The Decoder • 10일 전

IMP 8

알리바바 Qwen 3.8 공개, "Fable 5 다음으로 뛰어나"

알리바바가 2.4조 개 매개변수를 갖춘 최신 오픈 웨이트(open-weight) 모델인 Qwen 3.8을 공개했습니다. 이 모델은 특히 코딩 및 복잡한 데이터 분석 작업에서 기존 모델을 크게 앞지르며, 급부상하는 경쟁사 Moonshot AI의 Kimi K3 모델을 견제하는 전략적 목적을 띠고 있습니다. 아직 오픈 웨이트는 공개되지 않았으나 곧 풀릴 예정입니다.

알리바바 Qwen 오픈소스

Hacker News • 17일 전

IMP 7

맥 스튜디오에서 대규모 AI 모델 구동을 위한 3가지 버그 수정

M3 맥 스튜디오 얼트라 환경에서 5만 토큰 이상의 긴 대화 컨텍스트를 처리할 때 첫 토큰 생성까지 수 분이 걸리던 치명적인 지연 문제를 해결한 사례입니다. 저자는 DS4 Flash 모델에서 지연 시간이 더 짧은 Qwen 3.5 122B로 교체하고, 하이브리드 어텐션 구조로 인한 캐시 메모리 누수 등 서빙 스택의 버그 3가지를 직접 수정하여 로컬 환경에서도 실사용이 가능한 에이전트 코딩 환경을 구축했습니다. 로컬 LLM 최적화 및 Mac 하드웨어 활용에 관심 있는 개발자들에게 매우 유용한 기술적 인사이트를 제공합니다.

로컬 LLM 맥 스튜디오 추론 최적화

MarkTechPost • 24일 전

IMP 8

전 알리바바 Qwen 리더가 밝히는 하이브리드 추론의 한계와 에이전트의 미래

알리바바 '큐원(Qwen)'의 전 기술 책임자인 임준양(Junyang Lin)은 최근 강연과 에세이를 통해 Qwen3의 하이브리드 추론 모델이 가진 한계를 분석하고, AI의 방향성이 단순 추론에서 '에이전트적 사고(Agentic Thinking)'로 전환되어야 함을 강조했습니다. 특히 에이전트 강화학습(RL) 인프라를 구축하는 것이 기술적으로 훨씬 까다로우며, 보상 해킹(Reward hacking)과 같은 문제를 어떻게 해결해야 하는지가 현업 실무자들에게 중요한 과제로 남았습니다.

Qwen 에이전트 하이브리드 추론

MarkTechPost • 57일 전

IMP 7

알리바바 Qwen3.7-Plus 공개

알리바바의 Qwen 팀이 자체 AI 플랫폼인 바이리안(Bailian)에 새로운 멀티모달 에이전트 모델인 Qwen3.7-Plus를 출시했습니다. 이 모델은 이미지와 비디오를 이해하는 시각 능력뿐만 아니라, 자가 프로그래밍 및 도구 호출(Tool Invocation) 기능을 탑재하여 독립적인 작업 수행 능력을 갖췄습니다. 이를 통해 복잡한 작업을 자율적으로 처리할 수 있는 고도화된 AI 에이전트 시장의 경쟁력이 한층 더 강화되었습니다.

알리바바 Qwen 멀티모달

r/LocalLLaMA • 64일 전

IMP 5

Qwen3.5 35B 비검열 모델 다양한 포맷 출시

알리바바의 오픈소스 모델 Qwen3.5 35B A3B를 기반으로 한 비검열(UnCensored) 커스텀 모델과 Native MTP(다음 토큰 예측)가 완벽히 보존된 버전이 공개되었습니다. 이 모델은 Safetensors, GGUF, NVFP4, GPTQ-Int4 등 다양한 형식과 양자화 포맷을 지원하여 로컬 환경에서의 활용성을 극대화한 것이 특징입니다.

오픈소스 모델 로컬 AI 양자화

r/LocalLLaMA • 65일 전

IMP 6

V100 환경에서 Qwen3.6 27B 초당 1,000토큰 생성 달성

NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델을 구동하여 최대 초당 1,000토큰(tps)의 생성 속도를 달성하는 실험 결과가 공유되었습니다. 다중 사용자 동시 처리(배치 128) 시에는 엄청난 속도를 보여주며, 단일 사용자 기준으로는 MTP(다중 토큰 예측) 없이도 초당 80토큰의 생성 속도와 초당 3,000토큰의 처리 속도를 기록했습니다. 이는 구형 GPU인 V100으로도 대규모 모델을 상당히 쾌적하게 구동할 수 있음을 보여주는 의미 있는 벤치마크입니다.

오픈소스 모델 벤치마크 GPU 인퍼런스

r/LocalLLaMA • 69일 전

IMP 7

큐원(Qwen), 270억 매개변수(27B) 모델 추가 공개 유력

오픈소스 AI 모델 분야에서 두각을 나타내고 있는 알리바바의 큐원(Qwen)이 270억(27B) 매개변수 규모의 새로운 모델을 출시할 가능성이 높습니다. 이는 기존 라인업의 빈자리를 채울 중요한 릴리즈로, AI 실무자들에게 오픈소스 기반의 강력한 중형급 모델 선택지를 제공할 것으로 보입니다. 정확한 출시 일정 및 로드맵은 현재 내부 조율 중인 것으로 전해집니다.

qwen llm 오픈소스

r/LocalLLaMA • 69일 전

IMP 3

커뮤니티가 Qwen 3.7 모델 발표를 학수고대하는 현실

오픈소스 AI 커뮤니티 사용자가 중국의 Qwen(치안)이 발표할 3.7 버전 모델을 기다리며 게시한 유머러스한 게시글입니다. 해당 유저는 27B(27B) 및 122B(122B) 파라미터 모델의 공개를 간절히 희망하고 있습니다. 이는 화제의 Qwen 새 모델에 대한 글로벌 개발자들의 높은 기대감과 관심을 잘 보여줍니다.

Qwen 오픈소스 모델 대규모 언어 모델(LLM)

r/LocalLLaMA • 76일 전

IMP 7

Qwen 모델에 다중 토큰 예측 적용 및 속도 40% 향상

LLaMA.cpp 환경에서 Qwen 모델을 대상으로 다중 토큰 예측(MTP) 기술과 양자화 기법인 TurboQuant를 성공적으로 통합했습니다. 이를 통해 로컬 환경(MacBook Pro)에서 텍스트 생성 속도를 약 40% 향상시키고 높은 수용율(90%)을 달성하며 추론 성능을 크게 개선했습니다. 이 성과는 고성능 오픈소스 모델을 일반 로컬 하드웨어에서도 빠르고 효율적으로 구동할 수 있음을 입증합니다.

로컬-AI LLaMA.cpp 양자화

r/LocalLLaMA • 87일 전

IMP 7

Qwen3.6-27B vs Coder-Next 모델 비교 결과

RTX PRO 6000 GPU 2대로 약 20시간 동안 Qwen3.6-27B와 Coder-Next 모델을 심층 비교한 결과, 두 모델은 전반적인 벤치마크에서 통계적으로 비등한 성능을 보였습니다. 흥미롭게도 Qwen3.6-27B는 '사고(Thinking)' 기능을 비활성화했을 때 오히려 결과물의 일관성이 95.8%로 가장 높게 나타났으며, Coder-Next는 제한된 비즈니스 문서 작성 등 특정 작업에서 60~100배 낮은 비용으로 완벽한 성공률을 기록해 각기 다른 강점을 입증했습니다.

오픈소스 모델 벤치마크 Qwen

MarkTechPost • 89일 전

IMP 8

큐원팀, LLM 내부 구조 해독하는 '큐원-스코프(SAE)' 오픈소스 공개

알리바바 클라우드의 Qwen 팀이 대규모 언어 모델(LLM)의 내부 작동 방식을 해석하고 제어할 수 있는 오픈소스 희소 오토인코더(SAE) 모음인 'Qwen-Scope'를 공개했습니다. 이 도구는 모델의 내부 상태를 인간이 이해할 수 있는 언어나 스타일 같은 개념으로 분해하여, 가중치 수정 없이 실시간으로 모델의 출력을 제어하는 디버깅 및 개발 도구로 활용될 수 있습니다. 이를 통해 개발자들은 값비싼 컴퓨팅 자원을 소모하지 않고도 모델의 오작동을 진단하고 원하는 방향으로 쉽게 평가 및 수정할 수 있게 되었습니다.

대규모 언어 모델 오픈소스 희소 오토인코더

r/LocalLLaMA • 90일 전

IMP 7

Qwen, 고성능 선형 어텐션 커널 FlashQLA 공개

Qwen이 TileLang 기반의 고성능 선형 어텐션(Linear Attention) 커널인 FlashQLA를 공개했습니다. 순방향 연산 속도를 2~3배, 역방향 연산 속도를 2배 향상시켰으며, 특히 개인 기기에서 작동하는 에이전트 AI 및 긴 문맥(Long-context) 처리 환경에 최적화된 것이 특징입니다. 메모리 제약이 심한 에지 디바이스 환경에서 실질적인 성능 향상을 이끌어내는 실무적인 하드웨어 최적화 기법을 적용했습니다.

오픈소스 성능 최적화 에이지 AI

r/LocalLLaMA • 91일 전

IMP 7

Qwen 3.6 27B 양자화별 평가: BF16 vs Q4_K_M

오픈소스 모델인 Qwen 3.6 27B의 세 가지 포맷(BF16, Q4_K_M, Q8_0)에 대한 벤치마크 결과가 공유되었습니다. 로컬 환경에서는 BF16과 비교해 성능은 근소하게 저하되면서도 메모리와 용량을 절반 이상 아낄 수 있는 'Q4_K_M' 포맷이 가장 효율적인 선택지로 평가되었습니다. 최고의 성능을 원한다면 여전히 BF16이 최고이며, 코드 생성 작업이 많지 않은 일반적인 로컬 배포에는 Q4_K_M을 추천하고 있습니다.

오픈소스 모델 양자화(Quantization) 벤치마크

r/LocalLLaMA • 94일 전

IMP 7

Qwen3.6 35B 'Heretic' 모델, 압도적 성능 화제

오픈소스 AI 커뮤니티(레딧)에서 'Qwen3.6 35B A3B Heretic'라는 이름의 비공식 파인튜닝(미세조정) 모델이 공개되어 화제입니다. 특히 데이터셋 유사도를 나타내는 지표인 KLD(쿨백-라이블러 발산) 값이 0.0015로 극도로 낮아 원본 모델의 성능을 매우 충실히 보존하면서도 특정 분야에서 강력한 성능을 발휘하는 것으로 평가받고 있습니다. 공유된 코드를 보면 이 모델은 복잡한 채팅 템플릿과 이미지·비디오 처리, 함수 호출(Function Calling) 기능을 완벽하게 지원하도록 고도화된 것으로 확인됩니다.

오픈소스 모델 Qwen 미세조정(Fine-tuning)

The Decoder • 94일 전

IMP 7

알리바바 Qwen3.6-27B, 더 큰 모델 능가하는 코딩 성능

알리바바가 270억 파라미터의 새로운 오픈소스 밀집(Dense) 언어 모델인 Qwen3.6-27B를 공개했습니다. 이 모델은 3,970억 파라미터의 거대한 이전 버전을 거의 모든 코딩 벤치마크에서 압도하며, 훨씬 가벼운 크기로도 뛰어난 성능을 발휘합니다. 개발자들은 복잡한 MoE 구조 없이도 강력한 코딩 및 멀티모달 추론 성능을 활용할 수 있게 되었습니다.

Qwen 오픈소스 코딩 벤치마크

r/LocalLLaMA • 103일 전

IMP 5

Qwen3.6, 사고 과정(CoT) 내에서 컨텍스트 유지

새로운 AI 모델인 Qwen3.6이 추론 과정에서 설정된 정보를 기억하는 능력을 보여주고 있습니다. 사용자는 여러 차례 테스트를 통해 모델이 지정된 숫자를 실제 추론 단계에서 안정적으로 기억해냄을 확인했습니다. 다만 이 기능이 정상적으로 작동하려면 특정 플래그(`preserve_thinking: true`)를 설정해야 하는 중요한 조건이 있습니다.

qwen 추론-모델 프롬프트-엔지니어링

Hacker News • 103일 전

IMP 7

내 노트북의 Qwen이 오히스보다 펠리컨을 더 잘 그렸다

Simon Willison은 자신의 유명한 '자전거를 타는 펠리컨' 이미지 생성 벤치마크를 통해 알리바이의 Qwen3.6-35B-A3B와 Anthropic의 Claude Opus 4.7을 비교했습니다. 놀랍게도 노트북에서 구동한 21GB 크기의 오픈소스 Qwen 모델이 최상위 독점 모델인 Opus 4.7보다 훨씬 완성도 높은 SVG 그림을 그려냈습니다. 이는 특정 작업에서 로컬 경량 모델이 최고가의 상용 모델을 압도할 수 있다는 흥미로운 결과를 보여줍니다.

로컬 LLM Qwen Claude

r/LocalLLaMA • 117일 전

IMP 5

Gemma 4 모델도 훌륭하지만, Qwen의 완성도에 감탄하게 되는 이유

Reddit 사용자가 새로 출시된 Gemma 4 모델을 테스트해 보고 훌륭한 성능을 인정했습니다. 하지만 동시에 Qwen 팀이 이룬 높은 수준의 품질과 일반 가용 하드웨어에서도 구동 가능한 넓은 컨텍스트 윈도우(Context Window)의 가치를 더욱 깊이 체감하게 되었다고 평가했습니다. 이는 오픈소스 LLM 시장에서 소비자 하드웨어 최적화와 성능의 균형이 얼마나 중요한지를 보여주는 실무적 지표입니다.

Gemma 4 Qwen 오픈소스 LLM