메뉴
BL
r/singularity 16일 전

포에틱, 자가 최적화로 AI 코딩 성능 SOTA 달성

IMP
8/10
핵심 요약

AI 기업 포에틱(Poetiq)이 메타 시스템(Meta-System)을 활용해, 모델 파인튜닝이나 내부 접근 권한 없이도 코딩 벤치마크인 LiveCodeBench Pro에서 새로운 최고 수준(SOTA)의 성능을 달성했습니다. 이 시스템은 구글의 제미나이 3.1 프로(Gemini 3.1 Pro) 모델만을 사용해 코드 생성 환경(harness)을 자가 최적화한 뒤, 이를 오픈소스 및 상용 모델 전반에 적용해 성능을 대폭 끌어올렸습니다. 특히 최적화된 환경을 적용한 GPT 5.5는 93.9%의 정확도를 기록하며 기존 최고 기록을 경신했는데, 이는 기초 모델의 한계를 뛰어넘는 AI의 재귀적 자가 개선(Recursive Self-Improvement) 역량을 입증하는 중요한 성과입니다.

번역된 본문

연락처: hello@poetiq.ai | 채용 문의: join@poetiq.ai

재귀적 자가 개선(Recursive Self-Improvement)이 코딩 성능의 새로운 최고 수준(SOTA)을 달성하다 포에틱(Poetiq)의 메타 시스템(Meta-System)이 파인튜닝이나 모델에 대한 특별한 접근 권한 없이 어떻게 코딩 벤치마크 정상을 차지했는지 알아봅니다.

2026년 5월 14일

우리는 포에틱의 메타 시스템을 코딩 벤치마크에서 실행하여, 처음부터 자체적인 하네스(harness, 실행 환경 및 파이프라인)를 구성하고 최적화하도록 내버려 두었습니다. 그 결과 테스트된 모든 오픈 가중치(open-weights) 및 상용(proprietary) 모델에서 성능 향상을 이끌어냈습니다. 파인튜닝도, 특별한 내부 접근도, 인간이 수동으로 구축한 파이프라인도 사용하지 않았습니다.

LiveCodeBench Pro에서 SOTA를 자동으로 뛰어넘다 LiveCodeBench Pro(LCB Pro)는 권위 있는 코딩 벤치마크입니다. 솔루션이 성공하려면 정확한 결과를 도출해야 할 뿐만 아니라 특정 메모리 및 런타임 제약 조건을 충족해야 합니다. 중요한 점은, 이 벤치마크가 대형 언어 모델(LLM)의 데이터 오염(data contamination)을 완화하도록 명시적으로 설계되었다는 것입니다. 테스트 스위트는 지속적으로 업데이트되며, 이는 여느 표준 벤치마크와 다른 점입니다. 또한 공개적인 정답 코드(Ground-truth code)를 공개하지 않아 과적합(overfitting)을 방지하며, 대신 생성된 솔루션이 요구되는 출력을 충족하는지 검증하는 포괄적인 테스트 프레임워크를 활용합니다. 이 벤치마크의 문제들은 주요 코딩 대회에서 출제됩니다. LCB Pro는 어려운 C++ 챌린지를 활용하여 창의적인 코딩을 강조하며, 이는 AI의 복잡한 문제 해결 능력을 효과적으로 테스트합니다. 이는 도구 사용이나 버그 수정 워크플로우를 평가하는 SWEBench 같은 데이터셋과 다릅니다. 궁극적으로 이 벤치마크는 모델의 고유한 프로그래밍 능력과 고품질의 고성능 절차적 로직(procedural logic)을 생성하는 능력을 순수하게 평가합니다.

우리는 포에틱의 메타 시스템을 LCB Pro에서 실행하여, 제미나이 3.1 프로(Gemini 3.1 Pro)에 최적화된 맞춤형 LCB 하네스를 처음부터 새로 생성하도록 했습니다. 그런 다음 이 하네스를 여러 제공업체와 여러 세대의 다양한 오픈소스 및 상용 모델에 적용하여 테스트했습니다. 새로운 최고 수준(SOTA)의 결과는 그림 1에 나와 있습니다.

자동 학습된 포에틱 하네스, LiveCodeBench Pro(25Q2)에서 새로운 SOTA 달성 [그래프 데이터: Poetiq GPT 5.5 93.9, Poetiq Gemini 3.1 Pro 90.9, GPT 5.5 89.6, Gemini 3 Deep Think 88.8, Claude Opus 4.7 80.5, Gemini 3.1 Pro 78.6, GPT 5.2:High 75.7, Gemini 3.0 Flash 72.3, Qwen 3.6 Plus 64.5, Kimi K2.6 50.0, Nemotron 3 Super 120B 40.9]

그림 1: 우리의 자동 생성된 하네스는 LiveCodeBench Pro(25Q2)에서 새로운 SOTA를 달성했습니다. 동일한 기반 모델을 사용할 때 GPT 5.5 High를 4.3% 능가했습니다. 또한, 포에틱의 하네스를 구글의 제미나이 3.1 프로에 적용하자 성능이 12.3% 향상되었습니다. 더불어, 이전 ARC-AGI에서의 성공과 유사하게 이 최적화를 통해 더 작고 경제적인 제미나이 3.1 프로가 구글의 자체 플래그십 시스템인 Deep Think를 능가하게 되었습니다.

이전 벤치마크(ARC-AGI, HLE)에서 학습한 통찰력을 바탕으로, 우리의 메타 시스템은 성능 향상을 위해 하네스의 모든 부분을 최적화했습니다. 우리는 제미나이 3.1 프로 모델만을 사용하여 하네스를 최적화했습니다. 메타 시스템은 하네스를 설계할 때 정확도, 런타임 및 메모리 제약 조건을 모두 고려했습니다. 최적화된 하네스는 제미나이 3.1 프로의 결과를 12.3%(78.6에서 90.9로) 향상시켜, 이 벤치마크에서 우리가 테스트한 최고 모델인 GPT 5.5를 추월했습니다. 더 나아가, 새로운 최적화 없이 동일한 하네스를 GPT 5.5 자체에 적용했을 때 정확도가 93.9%로 향상되어 이전 최고 기록을 뛰어넘고 SOTA 경계를 더욱 높였습니다.

마지막으로, 구글의 자체 최고 성능 모델인 제미나이 Deep Think는 확인을 위해 API로 접근할 수 없지만, 우리는 그 성능 역시 능가했습니다. 중요한 점은, 우리의 성능이 기반 모델의 파인튜닝이나 어떤 모델의 내부 활성화(activations)에 대한 특별한 접근 없이 달성되었다는 것입니다. 우리의 메타 시스템은 재귀적 자가 개선을 통해 지능적인 하네스를 생성하며, 이는 표준 API 접근만 필요로 합니다. 우리의 SOTA 결과는 파인튜닝이나 모델 내부 활성화에 대한 특별한 접근 없이 달성되었습니다. 포에틱 메타 시스템은... (이하 생략)

원문 보기
원문 보기 (영어)
get in touch hello@poetiq.ai join our team join@poetiq.ai Recursive Self-Improvement Delivers New State-of-the-Art Coding Performance How Poetiq's Meta-System topped a coding benchmark without fine-tuning or privileged model access. May 14, 2026 We ran Poetiq's Meta-System on a coding benchmark, let it construct and optimize its own harnesses from scratch, and delivered improvements across all models tested, open-weights and proprietary. No fine-tuning, no special access, no hand-built pipelines. Automatically Improving Beyond SOTA on LiveCodeBench Pro LiveCodeBench Pro (LCB Pro) is an authoritative coding benchmark; for a solution to be successful, it must not only produce the correct answer but also satisfy specific memory and runtime constraints. Importantly, this benchmark is explicitly designed to mitigate LLM data contamination. The testing suite is subject to continuous updates, distinguishing it from many standard benchmarks. It further avoids overfitting by withholding public ground-truth code; instead, it utilizes a comprehensive testing framework that validates generated solutions against required outputs. The problems in the benchmark come from major coding competitions. LCB Pro emphasizes creative coding by utilizing difficult C++ challenges, which effectively test an AI's capacity for complex problem-solving. This distinguishes it from datasets like SWEBench that evaluate tool usage or bug-fixing workflows. Ultimately, the benchmark provides a pure assessment of the model's inherent programming abilities and its capacity to generate high-quality, performant procedural logic . We ran Poetiq's Meta-System on LCB Pro, letting it create a custom LCB harness from scratch, optimized for Gemini 3.1 Pro. The harness was then tested on many other models from different providers and different generations, both open source and proprietary. The new State of the Art (SOTA) results are shown in Figure 1. The Automatically-Learned Poetiq Harness Achieves New SOTA LiveCodeBench Pro (25Q2) 30 40 50 60 70 80 90 100 93.9 Poetiq GPT 5.5 90.9 Poetiq Gemini 3.1 Pro 89.6 GPT 5.5 88.8 Gemini 3 Deep Think 80.5 Claude Opus 4.7 78.6 Gemini 3.1 Pro 75.7 GPT 5.2:High 72.3 Gemini 3.0 Flash 64.5 Qwen 3.6 Plus 50.0 Kimi K2.6 40.9 Nemotron 3 Super 120B Figure 1: Our automatically-created harness achieves a new state-of-the-art (SOTA) on LiveCodeBench Pro (25Q2), outperforming GPT 5.5 High by 4.3% using the same base model. Furthermore, applying Poetiq's harness to Google's Gemini 3.1 Pro improves its performance by 12.3%. Additionally, similar to our previous success on ARC-AGI, this optimization allows the smaller, more economical Gemini 3.1 Pro to surpass Google's own flagship system, Deep Think. Building upon insights it learned from previous benchmarks ( ARC-AGI , HLE ), our Meta-System optimized every part of the harness to improve its performance. We optimized the harness using only the Gemini 3.1 Pro model; the Meta-System accounted for accuracy, runtime, and memory constraints when designing the harness. The optimized harness improved Gemini 3.1 Pro results by 12.3% (78.6 to 90.9) 1 , overtaking GPT 5.5, which is the best model we tested on this benchmark. Moreover, when we applied the same harness without any new optimization to GPT 5.5 itself, it improved its accuracy to 93.9% — surpassing its own previous best results and pushing the SOTA boundary even further. Lastly, though Google's own highest-performing model, Gemini Deep Think, is not accessible via API for verification, we also surpassed its performance. It is important to note that our performance was reached without any fine-tuning of the underlying model and without special access to any model's internal activations. Our Meta-System creates an intelligent harness, through recursive self-improvement, that requires only standard API access. Our SOTA results are achieved without any fine-tuning and without special access to the model's activations. The Poetiq Meta-System creates an intelligent harness, through recursive self-improvement, that requires only standard API access. Unlike post-training and fine-tuning, in which every improvement is tied to a specific model, we can apply our learned harness to any LLM. Learn Once, Use Everywhere: Our Solution Works Across All Models Automatically Unlike post-training and fine-tuning, in which every improvement is tied to a specific model, we can apply our learned harness to any LLM. As noted above, our harness was optimized for Gemini 3.1 Pro, but also significantly improved GPT 5.5 when applied to it. Another interesting example is Gemini 3 Flash — the harness improved its accuracy by 10 percentage points, going from 72.3% to 82.3%. This surpassed Gemini 3.1 Pro, Anthropic's Claude Opus 4.7 and OpenAI's GPT 5.2 High, all much bigger and more expensive models than Gemini 3 Flash. Because LCB Pro categorizes challenges by difficulty — Easy, Medium, and Hard — based on competitive human solve rates, it provides a granular view of capability. Table 1 shows that our optimized harness consistently outperforms base model families across every category . Model Overall Accuracy Hard Medium Easy Gemini Gemini 3.1 Pro 78.6% 7.7% 64.9% 94.8% Gemini 3 Deep Think 88.8% 53.8% 86.0% 94.8% Poetiq Harness w/ Gemini 3.1 Pro 90.9% 58.3% 87.5% 96.9% GPT GPT 5.5 High 89.6% 50.0% 91.1% 93.8% Poetiq Harness w/ GPT 5.5 High 93.9% 75.0% 92.9% 96.9% Table 1: Poetiq Harness vs Gemini and GPT models on LCB Pro (25Q2). Reported accuracies are split according to the benchmark's difficulty category. The Poetiq Harness outperforms all models in every category . To further illustrate the benefits of Poetiq's Meta-System, we apply our technique to popular recent models — both closed source and open weights models. The Leap Frog graphs below show large jumps in performance for two models (Gemini 3.0 Flash and Kimi K2.6); a summary of the improvements on all models can be found in the Appendix. LCB Pro Leap Frog Graph: Gemini 3.0 Flash 65 75 85 95 82.3 Poetiq Gemini 3.0 Flash 80.5 Claude Opus 4.7 78.6 Gemini 3.1 Pro 75.7 GPT 5.2:High 72.3 Gemini 3.0 Flash LCB Pro Leap Frog Graph: Kimi K2.6 40 50 60 70 80 90 79.9 Poetiq Kimi K2.6 78.6 Gemini 3.1 Pro 75.7 GPT 5.2:High 72.3 Gemini 3.0 Flash 64.5 Qwen 3.6 Plus 50.0 Kimi K2.6 Figure 2: Using Poetiq's harness improves all models tested. Here we focus just on specific model improvements. Two examples shown: (A) Gemini 3.0 Flash, (B) Kimi K2.6. Note Kimi K2.6's 30% improvement. See the Appendix for all model improvements. Why Test on Code? This is Poetiq's third publicly reported benchmark test. Previously, we showed how we can improve all models' performance on both ARC-AGI and Humanity's Last Exam (HLE) . We have been strategic in the benchmarks we attempted; we believe that there are three critical categories of tasks for LLMs: Reasoning challenges: these require the LLM to synthesize provided information in inventive ways; ARC-AGI stands as the premier example of this ability. Retrieval challenges: these quantify the breadth of knowledge embedded within a model's weights. HLE serves as a rigorous audit of this, requiring models to recall precise facts across a vast spectrum of disciplines. Coding challenges: as the most pervasive commercial application for AI today, these tasks meld reasoning and retrieval with the generation of specialized procedural logic. Achieving state-of-the-art results here demonstrates the potential economic impact of our approach to recursive self-improvement. Our coding initiatives focused on three primary objectives: To prove that by constructing an intelligent harness around any underlying LLM, we can boost efficacy without fine-tuning or special model access. ✓ To validate our Meta-System's capacity for recursive self-improvement in creating this harness. We are proud to state that our system builds and optimizes these task-specific harnesses fully automatically. ✓ To demonstrate that once our harness is built, it i