알리바바 AI, 35시간 자율 구동으로 자체 칩 코드 최적화
알리바바의 Qwen 팀이 장시간 자율 작업에 특화된 새로운 AI 모델 'Qwen3.7-Max'를 공개했습니다. 이 모델은 학습되지 않은 자체 반도체 칩 환경에서 35시간 동안 자율적으로 코드를 수정하여 기존 대비 평균 10배의 실행 속도 향상을 달성하며 뛰어난 코딩 에이전트 성능을 입증했습니다. 특히 자체 학습 과정에서 부정 행위를 감시하는 등 고도화된 AI 에이전트 시스템의 가능성을 보여준다는 점에서 중요하게 평가받습니다.
알리바바 최신 AI 모델, 자체 커스텀 칩 코드 최적화를 위해 35시간 자율 구동
핵심 요약 알리바바의 Qwen 팀이 자율 작업(Autonomous tasks)을 위해 특별히 설계된 새로운 AI 모델 'Qwen3.7-Max'를 출시했습니다. 이 모델은 사용자 친화적인 인터페이스 대신 API를 통해서만 제공됩니다. 복잡한 소프트웨어 프로젝트를 처리하고 장시간 독립적으로 작업하도록 설계되었습니다. 실용적인 벤치마크에서 완전히 자율적으로 코드를 최적화하여 속도 면에서 많은 경쟁 모델을 능가했습니다. Qwen3.7-Max는 표준 벤치마크에서 최고 수준의 AI 연구소들과 대등한 성능을 발휘합니다. 특히 개발자들은 이 모델을 자체 학습 과정에서 바람직하지 않은 행동과 부정 행위(보상 해킹) 시도를 독립적으로 감지하는 데 사용하기도 했습니다.
알리바바의 Qwen 팀은 에이전트 기반 작업을 위해 설계된 자체 모델인 Qwen3.7-Max를 공개했습니다. 실제 테스트에서 이 모델은 35시간 동안 완전히 자율적으로 커널(Kernel) 최적화를 수행했습니다. 이전 버전인 Qwen3-Max 및 Qwen3.6-Plus와 마찬가지로 새로운 Max 버전은 알리바바 클라우드 모델 스튜디오 API를 통해서만 이용할 수 있습니다. 알리바바는 과거 Qwen 모델들을 오픈소스로 공개했지만, 지금은 상황이 바뀌었습니다. 2026년 2월에 공개된 Qwen3.5-397B-A17B가 마지막 오픈소스 플래그십 모델이었습니다.
Qwen3.7-Max는 OpenAI 및 Anthropic 호환 인터페이스를 지원하며 Claude Code, OpenClaw 또는 Qwen Code에 즉시 연동할 수 있습니다. Qwen 팀은 이 모델이 4가지 주요 사용 사례를 타겟팅한다고 밝혔습니다. 프론트엔드 프로토타입부터 복잡한 다중 파일 소프트웨어 프로젝트까지 아우르는 코딩 에이전트 역할, 외부 도구를 활용한 사무 자동화, 장시간에 걸친 자율 실행, 그리고 다양한 에이전트 프레임워크에서의 일관된 성능 수행입니다.
35시간 동안 진행된 커널 실험 Qwen3.7-Max는 오픈소스 추론 소프트웨어인 SGLang을 위한 하드웨어 기반 어텐션 커널(Attention kernel) 최적화 작업을 부여받았습니다. 대상 하드웨어는 알리바바 자체 반도체 부문의 AI 칩 플랫폼인 T-Head-ZW-M890 가속기가 장착된 클라우드 인스턴스였습니다.
Qwen 팀에 따르면 이 모델은 학습 과정에서 이 칩 아키텍처를 전혀 본 적이 없습니다. 측정 데이터, 하드웨어 문서 및 샘플 코드 없이 백지상태에서 시작했습니다. 모델이 사용할 수 있는 유일한 것은 Triton 프로그래밍 언어로 작성된 기존 참조 구현 코드뿐이었습니다.
약 35시간의 무중단 자율 작업 동안 이 모델은 총 1,158회의 도구 호출(Tool calls)과 함께 432개의 커널 테스트를 실행했습니다. 루프를 돌며 코드를 컴파일, 측정 및 수정하고 컴파일 오류를 스스로 잡아내며 성능 병목 현상을 추적했습니다. Qwen 연구원들에 따르면 그 결과 기존 참조 구현 대비 평균 10배의 속도 향상을 달성했습니다.
동일한 환경에서 경쟁 모델들은 크게 뒤처졌습니다. GLM 5.1은 7.3배, Kimi K2.6은 5배, DeepSeek V4 Pro는 3.3배의 속도 향상을 기록했으며, 이전 모델인 Qwen3.6-Plus는 1.1배 향상에 그쳤습니다. 도구 호출 없이 5번의 라운드가 연속으로 지속되면 일찍 세션을 종료한 모델들도 있었습니다.
표준화된 KernelBench L3 벤치마크에서 Qwen3.7-Max는 96%의 확률로 가속화된 커널을 생성하여 Anthropic의 Opus 4.6(98%)에 바로 뒤를 이었습니다.
작업, 도구 환경, 검증기의 분리 훈련 Qwen3.7-Max는 팀이 Qwen3.5에서 처음 도입한 훈련 방식을 기반으로 합니다. 각 훈련 작업은 실제 작업(Task), 도구 환경(Tool environment), 결과를 확인하는 검증기(Validator)라는 세 가지 독립적인 부분으로 나뉩니다. 이 요소들은 자유롭게 혼합하고 매칭될 수 있습니다.
동일한 작업이 다양한 도구 환경에서 연습되고 여러 테스트 방법으로 확인됩니다. 이는 특정 환경에 국한된 편법이 아닌, 어디서나 작동하는 범용적인 전략을 모델이 학습하도록 강제하기 위함입니다. Qwen 팀은 QwenClawBench와 CoWorkBench 환경에서 테스트할 때마다 Qwen3.7-Max가 어떤 환경에 배치되더라도 안정적인 성능을 유지한다고 밝혔습니다.
자체 훈련 중 보상 해킹 감시 Qwen 팀은 또한 Qwen3.7-Max를 자체 학습 과정에서 감시자로 활용했습니다. 이 모델은 학습 과정에서 소프트웨어 버그나 보상 해킹(Reward hacking)과 같은 부정 행위를 감시하는 역할을 수행했습니다.