지푸 AI GLM-5.1, 수백 번 반복하며 코딩 전략 스스로 수정
중국의 지푸 AI(Zhipu AI)가 복잡하고 장기적인 프로그래밍 작업에 특화된 오픈소스 모델 GLM-5.1을 공개했습니다. 이 모델은 작업 중 막히면 수백 번에 걸쳐 스스로 코드를 검토하고 전략을 근본적으로 수정하여 기존 최고 성능 모델들을 제치는 성능을 보여줍니다. 단일 프롬프트로 리눅스 데스크톱 환경을 구축하는 등 뛰어난 에이전트 기반 작업 능력을 증명했지만, 지식 및 추론 벤치마크에서는 여전히 개선할 점이 많음을 스스로 인정하고 있습니다.
지푸 AI(Zhipu AI)의 GLM-5.1은 수백 번의 반복을 통해 자체적인 코딩 전략을 재고할 수 있습니다.
조나단 켐퍼(Jonathan Kemper)의 글, 2026년 4월 9일
핵심 요약
- 지푸 AI가 복잡하고 장기적으로 실행되는 프로그래밍 작업을 위해 구축된 자유롭게 사용 가능한 모델인 GLM-5.1을 출시했습니다.
- 까다로운 소프트웨어 엔지니어링 벤치마크인 SWE-Bench Pro에서 GPT-5.4와 Claude Opus 4.6을 근소한 차이로 제쳤습니다.
- 지푸 AI에 따르면, 이 모델의 핵심 장점은 어려운 작업에서 막다른 골목(교착 상태)에 빠지지 않는다는 것입니다. 대신, 자체적인 전략을 반복적으로 검토하고 진전이 정체될 때 방향을 근본적으로 바꿉니다.
- 추론 및 지식 작업에서는 GLM-5.1이 구글과 OpenAI의 모델들에 뒤처집니다. 지푸 AI는 이 모델을 '첫걸음'이라 부르며, 아직 보완해야 할 점을 공개적으로 인정하고 있습니다.
지푸 AI는 MIT 라이선스에 따라 새로운 GLM-5.1 모델을 공개했습니다. 이 모델은 코딩 작업을 수행할 때 수백 번의 반복을 거치며 자체적인 접근 방식을 구체화할 수 있다고 전해집니다.
지푸 AI는 오래 실행되는 에이전트 기반 프로그래밍 작업을 위해 설계된 새로운 오픈 웨이트(Open-weight) 모델인 GLM-5.1을 선보였습니다. 핵심 주장은 다음과 같습니다. 지푸 AI의 이전 모델인 GLM-5를 포함한 기존 모델들은 복잡한 문제에서 너무 빨리 아이디어가 고갈됩니다. 익숙한 전략을 적용해 초기 진전을 보이다가 벽에 부딪힙니다. 여기에 더 많은 컴퓨팅 자원을 투입해도 소용이 없습니다. GLM-5.1은 자체 전략을 반복적으로 검토하고, 막다른 골목을 인식하며, 새로운 접근 방식을 시도함으로써 이 문제를 해결합니다. 지푸 AI는 이를 '수백 라운드의 최적화와 수천 번의 도구 호출(툴 콜)'이라고 설명합니다.
이 회사는 세 가지 시나리오로 이를 시연했지만, 모두 내부적으로만 진행되었습니다. 아직 독립적인 평가는 존재하지 않습니다.
GLM-5.1, 작업 중 스스로 전략을 바꿔
첫 번째 시나리오에서 GLM-5.1은 벡터 데이터베이스를 최적화해야 했습니다. 벡터 데이터베이스는 대규모 데이터셋을 검색해 유사한 항목을 찾는 시스템입니다. 목표는 정확도를 잃지 않고 가능한 한 많은 검색 쿼리를 초당 처리하는 것이었습니다.
지푸 AI에 따르면 50라운드의 일반적인 테스트 실행에서 Claude Opus 4.6은 초당 3,547건의 쿼리라는 기존 최고 기록을 보유하고 있었습니다. 대신 지푸 AI는 GLM-5.1에 무제한의 시도 횟수를 부여했습니다. 이 모델은 새 버전을 제출할 시기와 다음에 시도할 내용을 스스로 결정했습니다. 600회 이상의 반복과 6,000회 이상의 도구 호출 결과, 이 회사는 초당 21,500건의 쿼리에 도달했다고 밝혔습니다. 이는 기존 최고 기록의 약 6배에 해당합니다.
지푸 AI에 따르면, 이 모델은 실행 과정에서 전략을 근본적으로 여러 차례 바꿨습니다. 약 90번째 반복에서는 모든 데이터를 샅샅이 검색하는 방식에서 더 효율적인 클러스터링(Clustering) 접근 방식으로 전환했습니다. 약 240번째 반복에서는 정밀한 필터링 전에 대략적인 사전 정렬을 수행하는 2단계 파이프라인을 도입했습니다. 회사는 전체 실행 과정에서 모델 스스로 시작한 이러한 구조적 변화가 6차례 있었다고 밝혔습니다.
GPU 최적화는 진전을 보이지만 최고 수준에는 미치지 못해
두 번째 시나리오에서 모델은 기존의 머신러닝 코드를 GPU에서 더 빠르게 실행되도록 다시 작성해야 했습니다. 지푸 AI에 따르면 GLM-5.1은 기본 구현 대비 3.6배의 속도 향상을 달성했으며, 후반 단계에서도 계속해서 성능 향상을 이어갔습니다. 반면 GLM-5는 훨씬 일찍 정체기에 빠졌습니다.
이 테스트에서는 Claude Opus 4.6이 4.2배의 속도 향상을 기록하며 여전히 확실히 앞서고 있고, 마지막에도 여전히 개선의 여지를 보여주고 있습니다. GLM-5.1은 이전 모델에 비해 생산적인 한계를 넓혔지만, 가장 강력한 경쟁 모델과의 격차를 완전히 좁히지는 못했습니다.
단일 프롬프트로 구축한 리눅스 데스크톱
세 번째 시나리오는 가장 특이합니다. GLM-5.1에게 시작 코드나 중간 지시 없이 웹 애플리케이션으로서 완전한 리눅스 데스크톱 환경을 구축하도록 요청했습니다. 지푸 AI에 따르면 대부분의 모델은 작업 표시줄과 몇 개의 플레이스홀더(Placeholder) 창이 있는 기본 셸(Shell)을 제공한 뒤 작업을 완료한 것으로 간주합니다.
GLM-5.1은 각 라운드 후에 자체 출력을 검토하고 여전히 누락되었거나 개선이 필요한 부분을 스스로 결정하는 루프(Loop)에 배치되었습니다. 8시간이 지난 결과, 파일 매니저 등을 갖춘 완전히 기능하는 데스크톱 환경이 탄생했습니다.