메뉴
BL
The Decoder 52일 전

지푸 AI GLM-5.1, 수백 번 반복하며 코딩 전략 스스로 수정

IMP
8/10
핵심 요약

중국의 지푸 AI(Zhipu AI)가 복잡하고 장기적인 프로그래밍 작업에 특화된 오픈소스 모델 GLM-5.1을 공개했습니다. 이 모델은 작업 중 막히면 수백 번에 걸쳐 스스로 코드를 검토하고 전략을 근본적으로 수정하여 기존 최고 성능 모델들을 제치는 성능을 보여줍니다. 단일 프롬프트로 리눅스 데스크톱 환경을 구축하는 등 뛰어난 에이전트 기반 작업 능력을 증명했지만, 지식 및 추론 벤치마크에서는 여전히 개선할 점이 많음을 스스로 인정하고 있습니다.

번역된 본문

지푸 AI(Zhipu AI)의 GLM-5.1은 수백 번의 반복을 통해 자체적인 코딩 전략을 재고할 수 있습니다.

조나단 켐퍼(Jonathan Kemper)의 글, 2026년 4월 9일

핵심 요약

  • 지푸 AI가 복잡하고 장기적으로 실행되는 프로그래밍 작업을 위해 구축된 자유롭게 사용 가능한 모델인 GLM-5.1을 출시했습니다.
  • 까다로운 소프트웨어 엔지니어링 벤치마크인 SWE-Bench Pro에서 GPT-5.4와 Claude Opus 4.6을 근소한 차이로 제쳤습니다.
  • 지푸 AI에 따르면, 이 모델의 핵심 장점은 어려운 작업에서 막다른 골목(교착 상태)에 빠지지 않는다는 것입니다. 대신, 자체적인 전략을 반복적으로 검토하고 진전이 정체될 때 방향을 근본적으로 바꿉니다.
  • 추론 및 지식 작업에서는 GLM-5.1이 구글과 OpenAI의 모델들에 뒤처집니다. 지푸 AI는 이 모델을 '첫걸음'이라 부르며, 아직 보완해야 할 점을 공개적으로 인정하고 있습니다.

지푸 AI는 MIT 라이선스에 따라 새로운 GLM-5.1 모델을 공개했습니다. 이 모델은 코딩 작업을 수행할 때 수백 번의 반복을 거치며 자체적인 접근 방식을 구체화할 수 있다고 전해집니다.

지푸 AI는 오래 실행되는 에이전트 기반 프로그래밍 작업을 위해 설계된 새로운 오픈 웨이트(Open-weight) 모델인 GLM-5.1을 선보였습니다. 핵심 주장은 다음과 같습니다. 지푸 AI의 이전 모델인 GLM-5를 포함한 기존 모델들은 복잡한 문제에서 너무 빨리 아이디어가 고갈됩니다. 익숙한 전략을 적용해 초기 진전을 보이다가 벽에 부딪힙니다. 여기에 더 많은 컴퓨팅 자원을 투입해도 소용이 없습니다. GLM-5.1은 자체 전략을 반복적으로 검토하고, 막다른 골목을 인식하며, 새로운 접근 방식을 시도함으로써 이 문제를 해결합니다. 지푸 AI는 이를 '수백 라운드의 최적화와 수천 번의 도구 호출(툴 콜)'이라고 설명합니다.

이 회사는 세 가지 시나리오로 이를 시연했지만, 모두 내부적으로만 진행되었습니다. 아직 독립적인 평가는 존재하지 않습니다.

GLM-5.1, 작업 중 스스로 전략을 바꿔

첫 번째 시나리오에서 GLM-5.1은 벡터 데이터베이스를 최적화해야 했습니다. 벡터 데이터베이스는 대규모 데이터셋을 검색해 유사한 항목을 찾는 시스템입니다. 목표는 정확도를 잃지 않고 가능한 한 많은 검색 쿼리를 초당 처리하는 것이었습니다.

지푸 AI에 따르면 50라운드의 일반적인 테스트 실행에서 Claude Opus 4.6은 초당 3,547건의 쿼리라는 기존 최고 기록을 보유하고 있었습니다. 대신 지푸 AI는 GLM-5.1에 무제한의 시도 횟수를 부여했습니다. 이 모델은 새 버전을 제출할 시기와 다음에 시도할 내용을 스스로 결정했습니다. 600회 이상의 반복과 6,000회 이상의 도구 호출 결과, 이 회사는 초당 21,500건의 쿼리에 도달했다고 밝혔습니다. 이는 기존 최고 기록의 약 6배에 해당합니다.

지푸 AI에 따르면, 이 모델은 실행 과정에서 전략을 근본적으로 여러 차례 바꿨습니다. 약 90번째 반복에서는 모든 데이터를 샅샅이 검색하는 방식에서 더 효율적인 클러스터링(Clustering) 접근 방식으로 전환했습니다. 약 240번째 반복에서는 정밀한 필터링 전에 대략적인 사전 정렬을 수행하는 2단계 파이프라인을 도입했습니다. 회사는 전체 실행 과정에서 모델 스스로 시작한 이러한 구조적 변화가 6차례 있었다고 밝혔습니다.

GPU 최적화는 진전을 보이지만 최고 수준에는 미치지 못해

두 번째 시나리오에서 모델은 기존의 머신러닝 코드를 GPU에서 더 빠르게 실행되도록 다시 작성해야 했습니다. 지푸 AI에 따르면 GLM-5.1은 기본 구현 대비 3.6배의 속도 향상을 달성했으며, 후반 단계에서도 계속해서 성능 향상을 이어갔습니다. 반면 GLM-5는 훨씬 일찍 정체기에 빠졌습니다.

이 테스트에서는 Claude Opus 4.6이 4.2배의 속도 향상을 기록하며 여전히 확실히 앞서고 있고, 마지막에도 여전히 개선의 여지를 보여주고 있습니다. GLM-5.1은 이전 모델에 비해 생산적인 한계를 넓혔지만, 가장 강력한 경쟁 모델과의 격차를 완전히 좁히지는 못했습니다.

단일 프롬프트로 구축한 리눅스 데스크톱

세 번째 시나리오는 가장 특이합니다. GLM-5.1에게 시작 코드나 중간 지시 없이 웹 애플리케이션으로서 완전한 리눅스 데스크톱 환경을 구축하도록 요청했습니다. 지푸 AI에 따르면 대부분의 모델은 작업 표시줄과 몇 개의 플레이스홀더(Placeholder) 창이 있는 기본 셸(Shell)을 제공한 뒤 작업을 완료한 것으로 간주합니다.

GLM-5.1은 각 라운드 후에 자체 출력을 검토하고 여전히 누락되었거나 개선이 필요한 부분을 스스로 결정하는 루프(Loop)에 배치되었습니다. 8시간이 지난 결과, 파일 매니저 등을 갖춘 완전히 기능하는 데스크톱 환경이 탄생했습니다.

원문 보기
원문 보기 (영어)
Zhipu AI's GLM-5.1 can rethink its own coding strategy across hundreds of iterations Jonathan Kemper View the LinkedIn Profile of Jonathan Kemper Apr 9, 2026 Zhipu AI Key Points Zhipu AI has released GLM-5.1, a freely available model built for complex, long-running programming tasks. On the demanding SWE-Bench Pro software engineering benchmark, it edges out GPT-5.4 and Claude Opus 4.6. According to Zhipu AI, the model's key advantage is that it doesn't get stuck in dead ends on difficult tasks. Instead, it repeatedly reviews its own strategy and fundamentally changes course when progress stalls. On reasoning and knowledge tasks, GLM-5.1 falls behind models from Google and OpenAI. Zhipu AI calls the model a "first step" and openly acknowledges what still needs work. Ask about this article… Search Zhipu AI has released its new GLM-5.1 model under an MIT license. The model can reportedly refine its own approach over hundreds of iterations when tackling coding tasks. Zhipu AI has introduced GLM-5.1, a new open-weight model designed for long-running, agent-based programming tasks. The core argument: existing models, including Zhipu's own predecessor GLM-5, run out of ideas too quickly on complex problems. They apply familiar strategies, make early progress, and then hit a wall. Throwing more compute at the problem doesn't help. GLM-5.1 is supposed to fix this by repeatedly reviewing its own strategy, recognizing dead ends, and trying new approaches. Zhipu AI describes optimization across "hundreds of rounds and thousands of tool calls." Ad The company demonstrates this with three scenarios, though all of them were conducted internally. Independent evaluations don't exist yet. Ad DEC_D_Incontent-1 GLM-5.1 switches strategies on its own mid-task In the first scenario, GLM-5.1 had to optimize a vector database - a system that searches large datasets and finds similar entries. The goal: answer as many search queries per second as possible without losing accuracy. In a standard test run with 50 rounds, Claude Opus 4.6 held the previous best score of 3,547 queries per second, according to Zhipu AI. Instead, Zhipu AI gave GLM-5.1 unlimited attempts. The model decided on its own when to submit a new version and what to try next. After more than 600 iterations and over 6,000 tool calls, it reached 21,500 queries per second - roughly six times the previous best, the company says. Ad According to Zhipu, the model fundamentally changed its strategy multiple times during the run. Around iteration 90, it switched from exhaustively searching all data to a more efficient clustering approach. Around iteration 240, it introduced a two-stage pipeline that does rough pre-sorting before precise filtering. The company identifies six such structural shifts over the entire run, each initiated by the model itself. GPU optimization shows progress but doesn't reach the top In the second scenario, the model had to rewrite existing machine learning code to run faster on GPUs. GLM-5.1 achieved a 3.6x speedup over the baseline implementation and continued making progress even in later phases, according to Zhipu AI. GLM-5, by contrast, plateaued much earlier. Ad DEC_D_Incontent-2 Claude Opus 4.6 remains clearly ahead in this test with a 4.2x speedup and still shows room for improvement at the end. GLM-5.1 extends the productive horizon compared to its predecessor but doesn't close the gap to the strongest competitor. Ad A Linux desktop from a single prompt The third scenario is the most unusual. GLM-5.1 was asked to build a complete Linux desktop environment as a web application - no starter code, no intermediate instructions. Most models deliver a basic shell with a taskbar and a few placeholder windows, then call the job done, according to Zhipu AI. GLM-5.1 was placed in a loop where it reviewed its own output after each round and decided what was still missing or needed improvement. After eight hours, the result was a functional desktop environment with a file browser, terminal, text editor, system monitor, calculator, and games, the company says. Strong at coding, weaker at reasoning Beyond the three demos, Zhipu AI published a benchmark table that paints a more nuanced picture. In coding, GLM-5.1 leads or matches the competition in several tests. On SWE-Bench Pro, a software engineering benchmark, it scores 58.4 percent - the highest among all tested freely available models, according to Zhipu AI, just ahead of GPT-5.4 at 57.7 percent and Claude Opus 4.6 at 57.3 percent. On CyberGym, a cybersecurity benchmark, it posts the top score of 68.7. Zhipu AI acknowledges, however, that Gemini 3.1 Pro and GPT-5.4 refused to execute some tasks for safety reasons, which likely dragged down their scores. On Humanity's Last Exam , a knowledge test, the model scores 31 percent - behind Gemini 3.1 Pro at 45 and GPT-5.4 at 39.8. On scientific questions (GPQA-Diamond), it also trails with 86.2 compared to Gemini 3.1 Pro at 94.3 and GPT-5.4 at 92. Results on agent-based tasks are mixed as well. In Vending Bench 2 , where a model has to run a simulated vending machine business, GLM-5.1 ends up with a balance of $5,634. Claude Opus 4.6 reaches $8,018 - significantly more. On repository generation (NL2Repo), Claude Opus 4.6 also leads clearly with 49.8 versus GLM-5.1's 42.7. On the Artificial Analysis Intelligence Index , the model currently sits just behind Anthropic's Claude 4.6 Sonnet. Zhipu AI openly names remaining challenges: the model needs to recognize dead ends sooner, maintain coherence across thousands of tool calls, and reliably self-assess on tasks without clear metrics. GLM-5.1 is a "first step" in that direction, the company says. The model is available under an MIT license on Hugging Face and ModelScope, and can be accessed through the API platforms api.z.ai and BigModel.cn. It integrates with coding agents like Claude Code and OpenClaw. For local deployment, Zhipu AI supports the inference frameworks vLLM and SGLang, with setup guides in the GitHub repository . Access through the Z.ai chat interface is expected to go live in the coming days. Zhipu AI is rapidly expanding its model lineup Zhipu AI recently introduced GLM-5V-Turbo , a multimodal coding model that generates code directly from images and video. Before that, the company released GLM-5 in February, an open-weight model with 744 billion parameters designed to compete with leading proprietary models on coding tasks. GLM-5.1 likely builds on both and adds the long-horizon capabilities Zhipu AI hopes will set it apart from Chinese competitors. That competition remains fierce: alongside Zhipu AI, Moonshot AI with Kimi K2.5 and Alibaba with Qwen3.5 are also pushing hard into the autonomous coding agent market. Zhipu AI isn't the only company betting on long-running AI agents. In early 2026, Cursor had hundreds of GPT-5.2 agents spend a week building a web browser. The resulting three million-plus lines of Rust code turned out to be nearly unmaintainable, landing in the bottom five percent of all evaluated software systems according to an analysis by the Software Improvement Group . AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: Zhipu AI