알리바바, 100만 토큰 컨텍스트 추론 모델 Qwen3.7-Max 발표
알리바바 클라우드 서밋 2026에서 멀티스텝 에이전트 및 복잡한 코딩 작업에 최적화된 최신 폐쇄형 추론 모델 Qwen3.7-Max가 공개되었습니다. 이 모델은 100만 토큰의 컨텍스트 윈도우를 지원하며, 과학적 추론과 코딩 벤치마크에서 전작 대비 큰 성능 향상을 보였습니다.
오늘날 대부분의 AI 모델은 지속적이고 다단계적인 자율 실행(Autonomous execution)을 염두에 두고 설계되지 않았습니다. 수백 번에 걸친 반복적인 코드 수정이나 사람의 개입 없이 몇 시간 동안 도구 호출을 연결하는 작업 등에는 다른 종류의 모델 아키텍처와 훈련 방식이 요구됩니다.
알리바바의 큐웬(Qwen)팀은 5월 20일 열린 '2026 알리바바 클라우드 서밋'에서 Qwen3.7-Max를 공식 발표했습니다. 사실 Qwen3.7 시리즈의 프리뷰 버전 두 가지는 보도자료나 공식 API 발표 없이 조용히 Arena AI의 리더보드에 등장한 바 있습니다.
두 가지 프리뷰 모델 동시 출시 알리바바는 Qwen3.7-Max-Preview와 Qwen3.7-Plus-Preview라는 두 가지 모델을 동시에 프리뷰 형태로 공개했습니다. LM Arena에 따르면 이들은 각각 텍스트 역량 기준 전 세계 13위, 비전(Vision) 역량 기준 16위를 기록했습니다. 텍스트 아레나에서 Qwen3.7-Max-Preview는 종합 13위를 차지했고, 이로 인해 알리바바는 텍스트 분야에서 6위 랩(Lab)으로 평가되었습니다. 비전 아레나에서 Qwen3.7-Plus-Preview는 종합 16위를 차지했으며, 알리바바는 비전 분야 5위 랩으로 평가되었습니다. 모델 순위와 랩 순위는 별도로 책정되는 수치입니다.
Qwen3.7-Plus-Preview는 추론과 논리적 표현에 초점을 맞춘 고성능 밸런스 버전의 프리뷰로, 향후 툴체인이 점진적으로 개방될 예정입니다. 비전 및 멀티모달 입력을 처리할 수 있습니다. 반면 Qwen3.7-Max는 텍스트 전용 추론 플래그십 모델입니다. 본 기사에서는 알리바바가 API 액세스와 함께 공식적으로 발표한 모델인 Qwen3.7-Max에 대해 다룹니다.
Qwen3.7-Max의 설계 목적 알리바바 큐웬팀은 Qwen3.7-Max를 현재까지 개발한 가장 진보되고 포괄적인 에이전트 모델(Agent Model)이라고 설명했습니다. 이 모델은 비공개 폐쇄형 가중치(Closed-weight)를 사용하는 독점 모델입니다. 코딩 및 디버깅, 오피스 워크플로우 자동화, 수백에서 수천 단계에 걸친 장기 작업을 처리할 수 있습니다.
확장 사고 모드(Extended-Thinking Mode) Qwen3.7-Max는 추론(Reasoning) 모델입니다. 이 모델은 최종 답변을 내놓기 전에 계획, 작업 확인, 수정 등의 내부 단계인 사고 과정(Chain of thought)을 먼저 생성합니다. 큐웬 챗(Qwen Chat)과 같은 인터페이스에서는 모델의 추론 과정을 볼 수 있는 '사고(Thinking)' 모드를 켤 수 있습니다. 추론 모델은 일반 모델에 비해 훨씬 더 많은 출력 토큰을 생성합니다. Artificial Analysis가 지능 지수(Intelligence Index) 평가를 진행했을 때, 해당 벤치마크의 평균 토큰 생성량이 2,400만 개인 데 반해 Qwen3.7-Max는 약 9,700만 개의 토큰을 생성했습니다. 짧거나 단순한 작업의 경우, 이러한 오버헤드는 출력 품질을 향상시키지 못한 채 지연 시간(Latency)만 증가시킵니다. 반면, 다단계 계획 수립, 코드 리팩토링 또는 긴 에이전트 체인과 같은 작업에는 이 확장 사고 모드가 모델의 강점을 극대화합니다.
컨텍스트 윈도우(Context Window) 이 모델은 Qwen3.6 Max Preview의 256K에서 대폭 확장된 100만 토큰(1M)의 컨텍스트 윈도우를 특징으로 합니다. 단, 텍스트 입력과 출력만 지원합니다. 가격 책정은 아직 공식적으로 발표되지 않았습니다. 참고로 Qwen3.6 Max Preview는 알리바바 클라우드에서 입력/출력 100만 토큰당 $1.30/$7.80에 책정되었습니다. 100만 토큰의 컨텍스트 윈도우를 사용하면 단일 요청 하나에 중간 규모의 전체 코드 저장소(Repository)나 방대한 문서 스택을 담을 수 있습니다. 하지만 컨텍스트 윈도우가 채워질수록 모델의 추론 신뢰성이 떨어지는 경우가 많습니다. Qwen3.7-Max에 대한 독립적인 긴 문맥(Long-context) 테스트 결과는 아직 공개되지 않았습니다.
벤치마크 결과 Qwen3.7-Max는 Artificial Analysis 지능 지수에서 56.6점을 기록하며 종합 5위를 차지했습니다. 이는 전작인 Qwen3.6 Max Preview(51.8점)보다 4.8점 향상된 수치로, 구글의 Gemini 3.5 Flash(55.3점)를 앞지르는 결과입니다. 그러나 GPT-5.5(60.2점), Claude Opus 4.7(57.3점), Gemini 3.1 Pro Preview(57.2점)가 여전히 종합 순위 최상위권을 유지하고 있습니다.
지능 지수(Intelligence Index) v4.0은 GDPval-AA, Terminal-Bench Hard, SciCode, AA-Omniscience, Humanity's Last Exam, GPQA Diamond 등 10개의 평가를 종합한 지표입니다. Qwen3.6 Max Preview 대비 향상된 폭은 균일하지 않으며, 인덱스 상승분의 대부분은 과학적 추론, 에이전트 기능, 코딩 분야에 집중되어 있습니다. CritPt는 9.7%p 상승했으며(3.7%에서 13.4%로), Humanity's Last Exam 등 다양한 지표에서 눈에 띄는 성능 개선을 입증했습니다.