Z.AI가 복잡한 소프트웨어 엔지니어링 자동화에 최적화된 차세대 오픈웨이트 모델 GLM-5.1을 발표했습니다. 이 모델은 8시간 이상의 자율 작업 수행 및 수천 번의 도구 호출 상황에서도 오류 누적과 전략 표류를 최소화하는 독자적인 아키텍처를 자랑합니다. 특히 SWE-Bench Pro에서 GPT-5.4 등 경쟁 모델들을 제치고 58.4점의 최고 성능(SOTA)을 달성하며 코딩 에이전트 분야의 새로운 기준을 제시했습니다.
번역된 본문
에디터 추천 | 에이전트 AI | 인공지능 | AI 인프라 | 기술 뉴스 | AI 논문 요약 | 기술 | AI 쇼츠 | 생성 AI | 언어 모델 | 대형 언어 모델 | 머신러닝 | 새로운 출시 | 오픈소스 | 소프트웨어 엔지니어링 | 스태프
GLM 모델 패밀리를 개발한 팀이 만든 AI 플랫폼인 Z.AI는 에이전트 엔지니어링(Agentic Engineering)을 위해 특별히 개발된 차세대 플래그십 모델인 GLM-5.1을 공개했습니다. 단일 턴의 깔끔한 벤치마크에 최적화된 기존 모델들과 달리, GLM-5.1은 에이전트 작업에 맞춰 설계되었습니다. 전작보다 훨씬 강력한 코딩 능력을 갖추고 있으며, SWE-Bench Pro에서 최고 수준(State-of-the-Art, SOTA)의 성능을 달성했습니다. 또한 NL2Repo(리포지토리 생성) 및 Terminal-Bench 2.0(실제 터미널 작업)에서 GLM-5를 큰 차이로 압도했습니다.
아키텍처: DSA, MoE 및 비동기 RL
GLM-5.1이 할 수 있는 일을 살펴보기 전에, 이 모델이 어떤 구조 위에 구축되었는지 이해할 가치가 있습니다. 표준 밀집형(Dense) 트랜스포머와는 의미 있게 다르기 때문입니다. GLM-5는 긴 문맥(Long-context)의 정확도를 유지하면서 훈련 및 추론 비용을 크게 줄이기 위해 DSA를 채택했습니다. 이 모델은 DSA가 결합된 전문가 혼합(Mixture of Experts, MoE) 모델 아키텍처(glm_moe_dsa)를 사용합니다.
자체 호스팅 여부를 평가하는 AI 개발자에게 이는 중요합니다. MoE 모델은 순방향 패스(Forward pass)마다 일부 매개변수(Parameters)만 활성화하므로, 특정 서빙 인프라가 필요하지만 비슷한 크기의 밀집형 모델보다 추론 효율을 크게 높일 수 있습니다.
훈련 측면에서 GLM-5는 생성과 훈련을 분리하여 사후 훈련(Post-training) 효율성을 획기적으로 높이는 새로운 비동기 강화 학습(Reinforcement Learning, RL) 인프라를 구현합니다. 새로운 비동기 에이전트 RL 알고리즘은 RL 품질을 더욱 향상시켜 모델이 복잡하고 장기적인 상호작용으로부터 더 효과적으로 학습할 수 있게 해줍니다. 덕분에 이 모델은 단일 턴 RL 훈련으로는 얻기 힘든 지속적인 판단력을 바탕으로 에이전트 작업을 처리할 수 있습니다.
GLM-5.1이 해결하는 정체(Plateau) 문제
GLM-5.1이 추론 시에 다른 점을 이해하려면, 에이전트로 사용되는 LLM의 특정 실패 모드(Failure mode)를 이해하는 것이 도움이 됩니다. GLM-5를 포함한 기존 모델들은 초기에 자신의 레퍼토리를 빠르게 소진하는 경향이 있습니다. 익숙한 기법을 적용해 빠른 초기 이익을 얻은 다음, 정체기에 빠집니다. 시간을 더 주어도 도움이 되지 않습니다. 이는 개발자가 LLM을 코딩 에이전트로 사용하려고 할 때 겪는 구조적인 한계입니다. 모델은 자신이 아는 동일한 플레이북을 적용하다가 벽에 부딪히고, 얼마나 오래 실행되든 더 이상 진전을 만들어내지 못합니다.
반면 GLM-5.1은 훨씬 더 긴 호라이즌(Horizon)에 걸쳐 에이전트 작업에서 효과를 유지하도록 구축되었습니다. 이 모델은 모호한 문제를 더 나은 판단력으로 처리하고, 더 긴 세션 동안 생산성을 유지합니다. 복잡한 문제를 세분화하고, 실험을 실행하고, 결과를 읽고, 정확하게 차단 요인(Blocker)을 식별합니다. 자신의 추론을 재검토하고 반복적인 수정을 통해 전략을 수정함으로써, GLM-5.1은 수백 번의 라운드와 수천 번의 도구 호출(Tool calls)에 걸쳐 최적화를 지속합니다.
이러한 지속적인 성능에는 단순히 더 큰 컨텍스트 창(Context window) 이상이 필요합니다. 이 기능은 모델이 확장된 실행 동안 목표 정렬(Goal alignment)을 유지하고, 전략 표류, 오류 누적, 비효율적인 시행착오를 줄이며, 복잡한 엔지니어링 작업에 대한 진정한 자율 실행을 가능하게 해야 합니다.
벤치마크: GLM-5.1의 위치
SWE-Bench Pro에서 GLM-5.1은 58.4점을 기록하며 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro를 능가하고 새로운 최고 수준(SOTA)의 결과를 세웠습니다.
더 광범위한 벤치마크 프로필은 이 모델이 균형 잡혀 있음을 보여줍니다. GLM-5.1은 AIME 2026에서 95.3점, HMMT 2025년 11월에서 94.0점, HMMT 2026년 2월에서 82.6점을 기록했으며, 대학원 수준의 과학 추론 벤치마크인 GPQA-Diamond에서는 86.2점을 획득했습니다.
에이전트 및 도구 사용 벤치마크에서 GLM-5.1은 CyberGym에서 68.7점(GLM-5의 48.3점에서 상당한 도약), BrowseComp에서 68.0점, τ³-Bench에서 70.6점을 기록했습니다. 그리고 MCP-Atlas(공개 세트)에서 71.8점을 달성했습니다. 프로덕션 에이전트 시스템에서 MCP의 역할이 커지고 있는 점을 고려할 때 마지막 점수는 특히 중요합니다.
Terminal-Bench 2.0에서 이 모델은 63.5점을 기록했으며, (이하 원문 누락으로 인해 번역이 중단된 부분임) 더 높은 성능을 보여줍니다.
Editors Pick Agentic AI Artificial Intelligence AI Infrastructure Tech News AI Paper Summary Technology AI Shorts Generative AI Language Model Large Language Model Machine Learning New Releases Open Source Software Engineering Staff Z.AI, the AI platform developed by the team behind the GLM model family, has released GLM-5.1 — its next-generation flagship model developed specifically for agentic engineering. Unlike models optimized for clean, single-turn benchmarks, GLM-5.1 is built for agentic tasks, with significantly stronger coding capabilities than its predecessor, and achieves state-of-the-art performance on SWE-Bench Pro while leading GLM-5 by a wide margin on NL2Repo (repo generation) and Terminal-Bench 2.0 (real-world terminal tasks). Architecture: DSA, MoE, and Asynchronous RL Before diving into what GLM-5.1 can do, it's worth understanding what it's built on — because the architecture is meaningfully different from a standard dense transformer. GLM-5 adopts DSA to significantly reduce training and inference costs while maintaining long-context fidelity. The model uses a glm_moe_dsa architecture ( Mixture of Experts (MoE) model combined with DSA). For AI devs evaluating whether to self-host, this matters: MoE models activate only a subset of their parameters per forward pass, which can make inference significantly more efficient than a comparably-sized dense model, though they require specific serving infrastructure. On the training side, GLM-5 implements a new asynchronous reinforcement learning infrastructure that drastically improves post-training efficiency by decoupling generation from training. Novel asynchronous agent RL algorithms further improve RL quality, enabling the model to learn from complex, long-horizon interactions more effectively. This is what allows the model to handle agentic tasks with the kind of sustained judgment that single-turn RL training struggles to produce. The Plateau Problem GLM-5.1 is Solving To understand what makes GLM-5.1 different at inference time, it helps to understand a specific failure mode in LLMs used as agents. Previous models — including GLM-5 — tend to exhaust their repertoire early: they apply familiar techniques for quick initial gains, then plateau. Giving them more time doesn't help. This is a structural limitation for any developer trying to use an LLM as a coding agent. The model applies the same playbook it knows, hits a wall, and stops making progress regardless of how long it runs. GLM-5.1, by contrast, is built to stay effective on agentic tasks over much longer horizons. The model handles ambiguous problems with better judgment and stays productive over longer sessions. It breaks complex problems down, runs experiments, reads results, and identifies blockers with real precision. By revisiting its reasoning and revising its strategy through repeated iteration, GLM-5.1 sustains optimization over hundreds of rounds and thousands of tool calls. The sustained performance requires more than a larger context window. This capability requires the model to maintain goal alignment over extended execution, reducing strategy drift, error accumulation, and ineffective trial and error, enabling truly autonomous execution for complex engineering tasks. Benchmarks: Where GLM-5.1 Stands On SWE-Bench Pro, GLM-5.1 achieves a score of 58.4, outperforming GPT-5.4, Claude Opus 4.6, and Gemini 3.1 Pro, setting a new state-of-the-art result. The broader benchmark profile shows a well-rounded model. GLM-5.1 scores 95.3 on AIME 2026, 94.0 on HMMT Nov. 2025, 82.6 on HMMT Feb. 2026, and 86.2 on GPQA-Diamond — a graduate-level science reasoning benchmark. On agentic and tool-use benchmarks, GLM-5.1 scores 68.7 on CyberGym (a substantial jump from GLM-5's 48.3), 68.0 on BrowseComp, 70.6 on τ³-Bench, and 71.8 on MCP-Atlas (Public Set) — the last one particularly relevant given MCP's growing role in production agent systems. On Terminal-Bench 2.0, the model scores 63.5, rising to 66.5 when evaluated with Claude Code as the scaffolding. Across 12 representative benchmarks covering reasoning, coding, agents, tool use, and browsing, GLM-5.1 demonstrates a broad and well-balanced capability profile. This shows that GLM-5.1 is not a single-metric improvement — it advances simultaneously across general intelligence, real-world coding, and complex task execution. In terms of overall positioning, GLM-5.1's general capability and coding performance are overall aligned with Claude Opus 4.6. 8-Hour Sustained Execution: What That Actually Means The most important difference in GLM-5.1 is its capacity for long-horizon task execution. GLM-5.1 can work autonomously on a single task for up to 8 hours, completing the full process from planning and execution to testing, fixing, and delivery. For developers building autonomous agents, this changes the scope of what's possible. Rather than orchestrating a model over dozens of short-lived tool calls, you can hand GLM-5.1 a complex objective and let it run a complete ‘experiment–analyze–optimize' loop autonomously. The concrete engineering demonstrations make this tangible: GLM-5.1 can build a complete Linux desktop environment from scratch in 8 hours; perform 178 rounds of autonomous iteration on a vector database task and improve performance to 1.5× the initial version; and optimize a CUDA kernel, increasing speedup from 2.6× to 35.7× through sustained tuning. That CUDA kernel result is notable for ML engineers: improving a kernel from 2.6× to 35.7× speedup through autonomous iterative optimization is a level of depth that would take a skilled human engineer significant time to replicate manually. Model Specifications and Deployment GLM-5.1 is a 754-billion-parameter MoE model released under the MIT license on HuggingFace . It operates with a 200K context window and supports up to 128K maximum output tokens — both important for long-horizon tasks that need to hold large codebases or extended reasoning chains in memory. GLM-5.1 supports thinking mode (offering multiple thinking modes for different scenarios), streaming output, function calling, context caching, structured output, and MCP for integrating external tools and data sources. For local deployment, the following open-source frameworks support GLM-5.1: SGLang (v0.5.10+), vLLM (v0.19.0+), xLLM (v0.8.0+), Transformers (v0.5.3+), and KTransformers (v0.5.3+). For API access, the model is available through Z.AI's API platform. Getting started requires installing zai-sdk via pip and initializing a ZaiClient with your API key. . Key Takeaways GLM-5.1 sets a new state-of-the-art on SWE-Bench Pro with a score of 58.4, outperforming GPT-5.4, Claude Opus 4.6, and Gemini 3.1 Pro — making it one of the the strongest publicly benchmarked model for real-world software engineering tasks at the time of release. The model is built for long-horizon autonomous execution , capable of working on a single complex task for up to 8 hours — running experiments, revising strategies, and iterating across hundreds of rounds and thousands of tool calls without human intervention. GLM-5.1 uses a MoE + DSA architecture trained with asynchronous reinforcement learning , which reduces training and inference costs compared to dense transformers while maintaining long-context fidelity — a meaningful consideration for teams evaluating self-hosting. It is open-weight under the MIT license (754B parameters, 200K context window, 128K max output tokens) and supports local deployment via SGLang, vLLM, xLLM, Transformers, and KTransformers, as well as API access through the Z.AI platform with OpenAI SDK compatibility. GLM-5.1 goes beyond coding — it also shows strong improvements in front-end prototyping, artifacts generation, and office productivity tasks (Word, Excel, PowerPoint, PDF), positioning it as a general-purpose foundation for both agentic systems and high-quality content workflows. Check out the Weights , API and Technical details . Also, feel free