포에틱, 자가 최적화로 AI 코딩 성능 SOTA 달성
AI 기업 포에틱(Poetiq)이 메타 시스템(Meta-System)을 활용해, 모델 파인튜닝이나 내부 접근 권한 없이도 코딩 벤치마크인 LiveCodeBench Pro에서 새로운 최고 수준(SOTA)의 성능을 달성했습니다. 이 시스템은 구글의 제미나이 3.1 프로(Gemini 3.1 Pro) 모델만을 사용해 코드 생성 환경(harness)을 자가 최적화한 뒤, 이를 오픈소스 및 상용 모델 전반에 적용해 성능을 대폭 끌어올렸습니다. 특히 최적화된 환경을 적용한 GPT 5.5는 93.9%의 정확도를 기록하며 기존 최고 기록을 경신했는데, 이는 기초 모델의 한계를 뛰어넘는 AI의 재귀적 자가 개선(Recursive Self-Improvement) 역량을 입증하는 중요한 성과입니다.
연락처: hello@poetiq.ai | 채용 문의: join@poetiq.ai
재귀적 자가 개선(Recursive Self-Improvement)이 코딩 성능의 새로운 최고 수준(SOTA)을 달성하다 포에틱(Poetiq)의 메타 시스템(Meta-System)이 파인튜닝이나 모델에 대한 특별한 접근 권한 없이 어떻게 코딩 벤치마크 정상을 차지했는지 알아봅니다.
2026년 5월 14일
우리는 포에틱의 메타 시스템을 코딩 벤치마크에서 실행하여, 처음부터 자체적인 하네스(harness, 실행 환경 및 파이프라인)를 구성하고 최적화하도록 내버려 두었습니다. 그 결과 테스트된 모든 오픈 가중치(open-weights) 및 상용(proprietary) 모델에서 성능 향상을 이끌어냈습니다. 파인튜닝도, 특별한 내부 접근도, 인간이 수동으로 구축한 파이프라인도 사용하지 않았습니다.
LiveCodeBench Pro에서 SOTA를 자동으로 뛰어넘다 LiveCodeBench Pro(LCB Pro)는 권위 있는 코딩 벤치마크입니다. 솔루션이 성공하려면 정확한 결과를 도출해야 할 뿐만 아니라 특정 메모리 및 런타임 제약 조건을 충족해야 합니다. 중요한 점은, 이 벤치마크가 대형 언어 모델(LLM)의 데이터 오염(data contamination)을 완화하도록 명시적으로 설계되었다는 것입니다. 테스트 스위트는 지속적으로 업데이트되며, 이는 여느 표준 벤치마크와 다른 점입니다. 또한 공개적인 정답 코드(Ground-truth code)를 공개하지 않아 과적합(overfitting)을 방지하며, 대신 생성된 솔루션이 요구되는 출력을 충족하는지 검증하는 포괄적인 테스트 프레임워크를 활용합니다. 이 벤치마크의 문제들은 주요 코딩 대회에서 출제됩니다. LCB Pro는 어려운 C++ 챌린지를 활용하여 창의적인 코딩을 강조하며, 이는 AI의 복잡한 문제 해결 능력을 효과적으로 테스트합니다. 이는 도구 사용이나 버그 수정 워크플로우를 평가하는 SWEBench 같은 데이터셋과 다릅니다. 궁극적으로 이 벤치마크는 모델의 고유한 프로그래밍 능력과 고품질의 고성능 절차적 로직(procedural logic)을 생성하는 능력을 순수하게 평가합니다.
우리는 포에틱의 메타 시스템을 LCB Pro에서 실행하여, 제미나이 3.1 프로(Gemini 3.1 Pro)에 최적화된 맞춤형 LCB 하네스를 처음부터 새로 생성하도록 했습니다. 그런 다음 이 하네스를 여러 제공업체와 여러 세대의 다양한 오픈소스 및 상용 모델에 적용하여 테스트했습니다. 새로운 최고 수준(SOTA)의 결과는 그림 1에 나와 있습니다.
자동 학습된 포에틱 하네스, LiveCodeBench Pro(25Q2)에서 새로운 SOTA 달성 [그래프 데이터: Poetiq GPT 5.5 93.9, Poetiq Gemini 3.1 Pro 90.9, GPT 5.5 89.6, Gemini 3 Deep Think 88.8, Claude Opus 4.7 80.5, Gemini 3.1 Pro 78.6, GPT 5.2:High 75.7, Gemini 3.0 Flash 72.3, Qwen 3.6 Plus 64.5, Kimi K2.6 50.0, Nemotron 3 Super 120B 40.9]
그림 1: 우리의 자동 생성된 하네스는 LiveCodeBench Pro(25Q2)에서 새로운 SOTA를 달성했습니다. 동일한 기반 모델을 사용할 때 GPT 5.5 High를 4.3% 능가했습니다. 또한, 포에틱의 하네스를 구글의 제미나이 3.1 프로에 적용하자 성능이 12.3% 향상되었습니다. 더불어, 이전 ARC-AGI에서의 성공과 유사하게 이 최적화를 통해 더 작고 경제적인 제미나이 3.1 프로가 구글의 자체 플래그십 시스템인 Deep Think를 능가하게 되었습니다.
이전 벤치마크(ARC-AGI, HLE)에서 학습한 통찰력을 바탕으로, 우리의 메타 시스템은 성능 향상을 위해 하네스의 모든 부분을 최적화했습니다. 우리는 제미나이 3.1 프로 모델만을 사용하여 하네스를 최적화했습니다. 메타 시스템은 하네스를 설계할 때 정확도, 런타임 및 메모리 제약 조건을 모두 고려했습니다. 최적화된 하네스는 제미나이 3.1 프로의 결과를 12.3%(78.6에서 90.9로) 향상시켜, 이 벤치마크에서 우리가 테스트한 최고 모델인 GPT 5.5를 추월했습니다. 더 나아가, 새로운 최적화 없이 동일한 하네스를 GPT 5.5 자체에 적용했을 때 정확도가 93.9%로 향상되어 이전 최고 기록을 뛰어넘고 SOTA 경계를 더욱 높였습니다.
마지막으로, 구글의 자체 최고 성능 모델인 제미나이 Deep Think는 확인을 위해 API로 접근할 수 없지만, 우리는 그 성능 역시 능가했습니다. 중요한 점은, 우리의 성능이 기반 모델의 파인튜닝이나 어떤 모델의 내부 활성화(activations)에 대한 특별한 접근 없이 달성되었다는 것입니다. 우리의 메타 시스템은 재귀적 자가 개선을 통해 지능적인 하네스를 생성하며, 이는 표준 API 접근만 필요로 합니다. 우리의 SOTA 결과는 파인튜닝이나 모델 내부 활성화에 대한 특별한 접근 없이 달성되었습니다. 포에틱 메타 시스템은... (이하 생략)