메뉴
BL
The Decoder 8일 전

알리바바 AI, 35시간 자율 구동으로 자체 칩 코드 최적화

IMP
8/10
핵심 요약

알리바바의 Qwen 팀이 장시간 자율 작업에 특화된 새로운 AI 모델 'Qwen3.7-Max'를 공개했습니다. 이 모델은 학습되지 않은 자체 반도체 칩 환경에서 35시간 동안 자율적으로 코드를 수정하여 기존 대비 평균 10배의 실행 속도 향상을 달성하며 뛰어난 코딩 에이전트 성능을 입증했습니다. 특히 자체 학습 과정에서 부정 행위를 감시하는 등 고도화된 AI 에이전트 시스템의 가능성을 보여준다는 점에서 중요하게 평가받습니다.

번역된 본문

알리바바 최신 AI 모델, 자체 커스텀 칩 코드 최적화를 위해 35시간 자율 구동

핵심 요약 알리바바의 Qwen 팀이 자율 작업(Autonomous tasks)을 위해 특별히 설계된 새로운 AI 모델 'Qwen3.7-Max'를 출시했습니다. 이 모델은 사용자 친화적인 인터페이스 대신 API를 통해서만 제공됩니다. 복잡한 소프트웨어 프로젝트를 처리하고 장시간 독립적으로 작업하도록 설계되었습니다. 실용적인 벤치마크에서 완전히 자율적으로 코드를 최적화하여 속도 면에서 많은 경쟁 모델을 능가했습니다. Qwen3.7-Max는 표준 벤치마크에서 최고 수준의 AI 연구소들과 대등한 성능을 발휘합니다. 특히 개발자들은 이 모델을 자체 학습 과정에서 바람직하지 않은 행동과 부정 행위(보상 해킹) 시도를 독립적으로 감지하는 데 사용하기도 했습니다.

알리바바의 Qwen 팀은 에이전트 기반 작업을 위해 설계된 자체 모델인 Qwen3.7-Max를 공개했습니다. 실제 테스트에서 이 모델은 35시간 동안 완전히 자율적으로 커널(Kernel) 최적화를 수행했습니다. 이전 버전인 Qwen3-Max 및 Qwen3.6-Plus와 마찬가지로 새로운 Max 버전은 알리바바 클라우드 모델 스튜디오 API를 통해서만 이용할 수 있습니다. 알리바바는 과거 Qwen 모델들을 오픈소스로 공개했지만, 지금은 상황이 바뀌었습니다. 2026년 2월에 공개된 Qwen3.5-397B-A17B가 마지막 오픈소스 플래그십 모델이었습니다.

Qwen3.7-Max는 OpenAI 및 Anthropic 호환 인터페이스를 지원하며 Claude Code, OpenClaw 또는 Qwen Code에 즉시 연동할 수 있습니다. Qwen 팀은 이 모델이 4가지 주요 사용 사례를 타겟팅한다고 밝혔습니다. 프론트엔드 프로토타입부터 복잡한 다중 파일 소프트웨어 프로젝트까지 아우르는 코딩 에이전트 역할, 외부 도구를 활용한 사무 자동화, 장시간에 걸친 자율 실행, 그리고 다양한 에이전트 프레임워크에서의 일관된 성능 수행입니다.

35시간 동안 진행된 커널 실험 Qwen3.7-Max는 오픈소스 추론 소프트웨어인 SGLang을 위한 하드웨어 기반 어텐션 커널(Attention kernel) 최적화 작업을 부여받았습니다. 대상 하드웨어는 알리바바 자체 반도체 부문의 AI 칩 플랫폼인 T-Head-ZW-M890 가속기가 장착된 클라우드 인스턴스였습니다.

Qwen 팀에 따르면 이 모델은 학습 과정에서 이 칩 아키텍처를 전혀 본 적이 없습니다. 측정 데이터, 하드웨어 문서 및 샘플 코드 없이 백지상태에서 시작했습니다. 모델이 사용할 수 있는 유일한 것은 Triton 프로그래밍 언어로 작성된 기존 참조 구현 코드뿐이었습니다.

약 35시간의 무중단 자율 작업 동안 이 모델은 총 1,158회의 도구 호출(Tool calls)과 함께 432개의 커널 테스트를 실행했습니다. 루프를 돌며 코드를 컴파일, 측정 및 수정하고 컴파일 오류를 스스로 잡아내며 성능 병목 현상을 추적했습니다. Qwen 연구원들에 따르면 그 결과 기존 참조 구현 대비 평균 10배의 속도 향상을 달성했습니다.

동일한 환경에서 경쟁 모델들은 크게 뒤처졌습니다. GLM 5.1은 7.3배, Kimi K2.6은 5배, DeepSeek V4 Pro는 3.3배의 속도 향상을 기록했으며, 이전 모델인 Qwen3.6-Plus는 1.1배 향상에 그쳤습니다. 도구 호출 없이 5번의 라운드가 연속으로 지속되면 일찍 세션을 종료한 모델들도 있었습니다.

표준화된 KernelBench L3 벤치마크에서 Qwen3.7-Max는 96%의 확률로 가속화된 커널을 생성하여 Anthropic의 Opus 4.6(98%)에 바로 뒤를 이었습니다.

작업, 도구 환경, 검증기의 분리 훈련 Qwen3.7-Max는 팀이 Qwen3.5에서 처음 도입한 훈련 방식을 기반으로 합니다. 각 훈련 작업은 실제 작업(Task), 도구 환경(Tool environment), 결과를 확인하는 검증기(Validator)라는 세 가지 독립적인 부분으로 나뉩니다. 이 요소들은 자유롭게 혼합하고 매칭될 수 있습니다.

동일한 작업이 다양한 도구 환경에서 연습되고 여러 테스트 방법으로 확인됩니다. 이는 특정 환경에 국한된 편법이 아닌, 어디서나 작동하는 범용적인 전략을 모델이 학습하도록 강제하기 위함입니다. Qwen 팀은 QwenClawBench와 CoWorkBench 환경에서 테스트할 때마다 Qwen3.7-Max가 어떤 환경에 배치되더라도 안정적인 성능을 유지한다고 밝혔습니다.

자체 훈련 중 보상 해킹 감시 Qwen 팀은 또한 Qwen3.7-Max를 자체 학습 과정에서 감시자로 활용했습니다. 이 모델은 학습 과정에서 소프트웨어 버그나 보상 해킹(Reward hacking)과 같은 부정 행위를 감시하는 역할을 수행했습니다.

원문 보기
원문 보기 (영어)
Alibaba's latest AI model ran autonomously for 35 hours to optimize code for its own custom chip Jonathan Kemper View the LinkedIn Profile of Jonathan Kemper May 23, 2026 Alibaba Key Points Alibaba's Qwen team has released Qwen3.7-Max, a new AI model built specifically for autonomous tasks, available exclusively through an API rather than a user-facing interface. The model is designed to handle complex software projects and work independently over extended periods. In practical benchmarks, it optimized code fully autonomously and outpaced many competing models in speed. Qwen3.7-Max performs on par with leading AI labs in standard benchmarks. Notably, the developers also used the model to independently detect undesirable behavior and cheating attempts during its own training process. Ask about this article… Search Alibaba's Qwen team has released Qwen3.7-Max, a proprietary model designed for agent-based tasks. In a real-world test, the model ran a fully autonomous kernel optimization for 35 hours straight. Like its predecessors Qwen3-Max and Qwen3.6-Plus , the new Max version is only available through the Alibaba Cloud Model Studio API. Alibaba used to release its Qwen models as open source, but that's changed. The last open flagship was Qwen3.5-397B-A17B from February 2026. Qwen3.7-Max supports OpenAI- and Anthropic-compatible interfaces and plugs right into Claude Code , OpenClaw , or Qwen Code. The Qwen team says the model targets four use cases: working as a coding agent from front-end prototypes to complex multi-file software projects, automating office tasks with external tools, running autonomously for long stretches, and performing consistently across different agent frameworks. Ad A kernel experiment that ran for 35 hours Qwen3.7-Max was tasked with optimizing a hardware-based attention kernel for the open-source inference software SGLang. The hardware was a cloud instance with T-Head-ZW-M890 accelerators, an AI chip platform from Alibaba's own semiconductor arm. Ad DEC_D_Incontent-1 The Qwen team says the model had never seen this chip architecture during training. It started with no measurement data, no hardware docs, and no sample code. The only thing it had to work with was the existing reference implementation, written in the Triton programming language. Over about 35 hours of nonstop autonomous work, the model ran 432 kernel tests with 1,158 total tool calls. It compiled, measured, and revised the code in loops, caught compilation errors, and tracked down performance bottlenecks on its own. The result, according to the Qwen researchers, is an average 10x speedup over the reference implementation. Ad Competitor models came up well short in the same setup. GLM 5.1 hit a 7.3x speedup, Kimi K2.6 got to 5x, DeepSeek V4 Pro managed 3.3x, and the predecessor Qwen3.6-Plus barely moved the needle at 1.1x. Models that quit early ended their sessions on their own after five straight rounds with no tool calls. On the standardized KernelBench L3 benchmark, Qwen3.7-Max claims to produce accelerated kernels 96 percent of the time, just behind Anthropic's Opus 4.6 at 98 percent. Training splits task, tool environment, and validator Qwen3.7-Max builds on a training approach the team first rolled out with Qwen3.5. Each training task breaks into three independent pieces: the actual task, the tool environment, and the validator that checks the result. These can be mixed and matched freely. Ad DEC_D_Incontent-2 The same task gets practiced across different tool environments and checked with different test methods. That's meant to force the model to pick up strategies that work everywhere, not just shortcuts tied to one specific setup. On QwenClawBench and CoWorkBench, Qwen3.7-Max holds steady no matter which test environment it's dropped into, the team says. Ad The model polices its own training for reward hacking The Qwen team also put Qwen3.7-Max to work as a watchdog during its own training. The model watched training runs for software engineering tasks for over 80 hours and ran more than 10,000 checks. It hunted for tricks the model being trained might pull to game its rewards , like grabbing correct answers straight off GitHub. Qwen3.7-Max wrote 13 new detection rules and flagged 1,618 cases. One year in simulation tests long-term planning To gauge long-term planning, the team used YC-Bench, a benchmark that simulates a startup's full one-year life cycle. The model has to manage staff across hundreds of decision rounds, review contracts, spot bad-faith customers, and keep profit margins healthy against rising labor costs. Qwen3.7-Max pulled in $2.08 million in total revenue and wrapped up 237 tasks. Its predecessor, Qwen3.6-Plus, hit $1.05 million. Qwen3.5-Plus managed just $352,000. Across most benchmarks, Qwen3.7-Max trades blows with Claude Opus 4.6 Max, Kimi K2.6 Thinking, GLM-5.1 Thinking, and DeepSeek V4 Pro Max. On SWE-Verified, the model scored 80.4, nearly tied with Opus 4.6 Max (80.8) and DeepSeek V4 Pro Max (80.6). On the math and science benchmarks GPQA Diamond (92.4), HMMT 2026 February (97.1), and Apex (44.5), Qwen3.7-Max tops the provider's own comparison table. Some of those benchmarks are homegrown, though. QwenWebDev, QwenClawBench, CoWorkBench, and QwenWorldBench all come from the Qwen team itself. Every result here is self-reported. A closer look at scaling dynamics and methodology is coming in an upcoming technical report. Beyond the usual use cases, the team also shows off Qwen3.7-Max steering a four-legged robot. Using its own robotics framework and a paired navigation model, the language model guides the robot through physical spaces. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: Alibaba