메뉴
BL
The Decoder 28일 전

최신 AI 모델들도 범하는 3가지 체계적 추론 오류

IMP
8/10
핵심 요약

ARC-AGI-3 벤치마크 분석에 따르면, 최신 AI 모델들인 GPT-5.5와 Opus 4.7이 1% 미만의 저조한 성적을 기록하는 원인은 세 가지 체계적인 추론 오류 때문입니다. 이들은 세부 사항은 파악하지만 전체 맥락을 연결하지 못하고, 기존 학습 데이터에 얽매여 낯선 환경을 잘못된 게임 규칙으로 해석하며, 우연히 성공하더라도 그 원리를 검증하지 않아 다음 단계를 풀지 못하는 치명적인 한계를 보였습니다.

번역된 본문

ARC-AGI-3 분석 결과, 최신 AI 모델들조차 세 가지 체계적인 추론 오류를 범하는 것으로 나타났습니다. (작성자: Matthias Bastian / 2026년 5월 2일)

ARC Prize Foundation은 ARC-AGI-3 벤치마크에서 OpenAI의 GPT-5.5와 Anthropic의 Opus 4.7의 160번의 게임 플레이를 분석했습니다. 이 결과는 두 모델의 점수가 모두 1% 미만에 머무는 이유를 설명해주는 세 가지 체계적인 오류 패턴을 보여줍니다.

AI 벤치마크는 대개 모델이 테스트를 통과했는지 실패했는지만 보여줍니다. ARC Prize Foundation은 새로운 분석을 통해 한 걸음 더 나아갔습니다. 팀은 ARC-AGI-3의 인터랙티브 환경에서 OpenAI의 GPT-5.5와 Anthropic의 Opus 4.7의 160개 리플레이와 추론 과정(reasoning traces)을 평가했습니다. 2026년 3월 말에 출시된 이 벤치마크는 인터랙티브한 턴 방식 게임 환경에서 AI 시스템을 테스트합니다. 정적인 패턴 인식에 의존했던 이전 모델들과 달리, 이 AI 에이전트들은 지시 없이 스스로 환경을 탐색하고 가설을 세우며 행동 계획을 수행해야 합니다. 지금까지 테스트된 모든 최신 프론티어 모델은 1% 미만의 점수를 기록했지만, 인간은 사전 지식 없이도 동일한 작업을 해결했습니다.

최신 결과도 다르지 않습니다. GPT-5.5는 약 10,000달러의 비용을 들여 0.43%를 기록했고, Opus 4.7은 겨우 0.18%를 달성했습니다. 벤치마크 개발자들에 따르면, 더 흥미로운 부분은 이러한 실패 이면에 있는 추론 과정입니다. 모델이 해결 시도를 기록한 '추론 과점'을 통해 개발자들은 모델이 정확히 어디에서 가설을 세웠고, 어디에서 올바른 가설을 기각했으며, 어디에서 잘못된 가설에 갇혔는지 추적할 수 있었습니다.

세부 사항은 보지만 전체 맥락을 놓친다 분석 결과 두 모델이 다소 다른 방식이긴 하지만 공통적으로 공유하는 세 가지 체계적인 오류 패턴이 확인되었습니다. 가장 흔한 패턴은 모델이 국소적인 효과는 올바르게 파악하지만 이를 작동하는 세계 모델(world model)로 통합하지 못한다는 것입니다. 모델은 특정 행동이 물체를 회전시킨다는 것을 인식할 수 있지만, 그 회전이 어느 면이 새로운 값을 받을지 결정하고 다음 행동 전에 물체를 정렬해야 한다는 것은 깨닫지 못합니다. 분석에 따르면 cd82 게임에서 Opus 4.7은 4단계에서 ACTION3이 컨테이너를 회전시킨다는 것을 이미 알고 있었습니다. 6단계에서는 ACTION5가 페인트를 붓는다는 것을 인식했습니다. 하지만 모델은 이러한 관찰 결과들을 연결하여, 왼쪽 상단의 목표 이미지를 재현하기 위해 양동이를 정렬한 다음 담가야 한다는 사실을 깨닫지 못했습니다. cn04에서도 비슷한 패턴이 나타났습니다. Opus는 23단계에서 올바른 '회전 후 배치' 상호작용을 찾았지만, 이내 잘못된 대상을 위해 최적화를 진행하며 존재하지도 않는 진행률 표시줄을 추적하기 시작했습니다.

학습 데이터가 낳은 잘못된 유추 두 번째 오류 패턴은 모델이 알 수 없는 환경을 학습 데이터에 익숙한 게임들과 혼동한다는 것입니다. 여러 차례 플레이 과정에서 모델들은 알 수 없는 게임 메커니즘을 테트리스(Tetris), 프로거(Frogger), 소코반(Sokoban), 브레이크아웃(Breakout), 퐁(Pong) 또는 보울더 대시(Boulder Dash)로 잘못 해석했습니다. 느슨한 시각적 유사성이 완전한 게임 플레이 이론으로 비화되고, 모델은 잘못된 메커니즘에 행동을 낭비합니다. 예를 들어, GPT-5.5는 ls20 환경을 실제로는 키 조합을 요구하는 게임임에도 불구하고 브레이크아웃으로 해석했습니다. 모델은 추론 과정에서 "또 다시 보면, 상단에 벽돌이 있고 패들이 있는 '브레이크아웃'과 더 비슷할 수도 있겠네요. 중앙의 물체가 공일 수도 있습니다"라고 기록했습니다. 이 전혀 근거 없는 가정은 진전 가능성을 완전히 차단해 버렸습니다. 이는 브레이크아웃에 익숙한 인간이라면 거의 범하지 않을 실수입니다.

레벨을 클리어했다고 게임을 이해한 것은 아니다 세 번째 오류 패턴은 아마도 가장 치명적일 수 있습니다. 모델이 레벨을 풀더라도 그 성공이 더 깊은 이해로 이어지지 않는데, 이는 모델이 자신의 전략이 왜 효과가 있었는지 결코 확인하지 않기 때문입니다. ka59에서 Opus는 1번 레벨을 37번의 행동 만에 풀었지만 이는 잘못된 이론에 기반한 것이었습니다. 클릭하면 활성 캐릭터가 순간이동한다고 가정한 것입니다. 실제로는 이 게임은 도형을 맞추고 밀어내는 것을 요구했습니다. 1번 레벨이 풀린 이유는 단순히 단순한 구조 덕분에 잘못된 메커니즘을 사용했음에도 우연히 목표에 도달했기 때문입니다. 모델은 이러한 성공을 자신의 가설에 대한 확인으로 여겼습니다.

원문 보기
원문 보기 (영어)
Even the latest AI models make three systematic reasoning errors, ARC-AGI-3 analysis shows Matthias Bastian View the LinkedIn Profile of Matthias Bastian May 2, 2026 Nano Banana Pro prompted by THE DECODER The ARC Prize Foundation analyzed 160 game runs of OpenAI's GPT-5.5 and Anthropic's Opus 4.7 on the ARC-AGI-3 benchmark. The results reveal three systematic error patterns that explain why both models stay below 1 percent. AI benchmarks usually just show whether a model passed or failed. The ARC Prize Foundation takes things a step further with a new analysis: the team evaluated 160 replays and reasoning traces from OpenAI's GPT-5.5 and Anthropic's Opus 4.7 in the interactive environments of ARC-AGI-3. The benchmark, released in late March 2026 , tests AI systems in interactive, turn-based game environments. Unlike their predecessors, which relied on static pattern recognition, AI agents have to explore environments on their own, form hypotheses, and carry out action plans without any instructions. Every frontier model tested so far has scored below 1 percent, while humans solved the same tasks with no prior knowledge. The latest results are no different: GPT-5.5 hits 0.43 percent at a cost of around $10,000, while Opus 4.7 manages just 0.18 percent. According to the benchmark developers, the more interesting part is the reasoning behind the failures. The recorded "reasoning traces," where the model documents its solution attempts, let them trace exactly where a model formed a hypothesis, where it rejected a correct one, and where it got stuck on a wrong one. Models see the details but miss the big picture The analysis identified three systematic error patterns that both models share, though in different ways. The most common pattern: models correctly pick up on local effects but can't turn them into a working world model. A model might recognize that a certain action rotates an object, but it can't figure out that the rotation determines which side receives a new value and that the object needs to be aligned before the next action. According to the analysis, Opus 4.7 in the game cd82 already knew by step 4 that ACTION3 rotates a container. By step 6, it recognized that ACTION5 pours paint. But the model never connected these observations into the realization that it needed to align the bucket and then dip it to reproduce the target image in the top left. A similar pattern showed up in cn04 : Opus found the correct rotate-then-place interaction at step 23 but then optimized for the wrong target and started tracking a progress bar that didn't exist. Training data leads to false analogies The second error pattern: models confuse unknown environments with familiar games from their training data. Across the runs, models repeatedly mistook unknown mechanics for Tetris, Frogger, Sokoban, Breakout, Pong, or Boulder Dash. A loose visual resemblance spirals into a full gameplay theory, and the model wastes its actions on the wrong mechanics. GPT-5.5, for example, interpreted the ls20 environment as Breakout when it was actually about key combinations. "Then again, it could be more like 'Breakout,' with bricks at the top and a paddle. The central object might be the ball," the model wrote in its reasoning traces. This completely baseless assumption killed any chance of progress, a mistake a human familiar with Breakout would almost never make. Solving a level doesn't mean understanding the game The third error pattern might be the most consequential. Even when a model solves a level, that success doesn't translate into deeper understanding because the model never checks why its strategy worked. In ka59 , Opus solved level 1 in 37 actions but based on a false theory: it assumed a click would teleport the active character. In reality, the game requires shape-matching and pushing. Level 1 only got solved because its simple structure happened to lead to the goal even with the wrong mechanics. Since the model treated its success as confirmation of the teleportation theory, the wrong assumption hardened into "click each target to fill it" by level 2 . The model didn't recover from this mistake. In ar25 , the same pattern played out on a different level: Opus solved level 1 with a correct insight about mirrored motion and even spotted the new mechanics of a movable axis in level 2. But instead of following up on this correct observation, the model drifted into hallucinated rules and tried to "punch holes" or mirror objects. The right approach got buried under false hypotheses. Both cases show that without examining why a level was won, models carry misconceptions into the next one. Opus locks onto wrong theories, GPT-5.5 can't commit to right ones According to the analysis, Opus 4.7 is better at picking up mechanics early. On ar25, it identified the mirror structure almost immediately and solved level 1. But Opus tends to aggressively lock onto a false rule and never let go. In cn04, for example, it invented a progress and conversion theory and spent the early game clicking aimlessly within that framework . It had a theory, just the wrong one. GPT-5.5 has the opposite problem. Its hypothesis generation is broader, so it's more likely to land on the right idea but can't turn it into an action plan. On ar25, it correctly identified the mirror effect but then kept expanding the possibility space, cycling through Tetris, Frogger, Pong, and Tower of Hanoi instead of committing. The model saw the right approach but couldn't bring itself to follow through. "The difference comes down to compression. Opus compressed its observations into a confident but wrong theory. GPT-5.5 had difficulty compressing at all," writes Greg Kamradt from the ARC Prize Foundation . Error patterns could matter beyond benchmarks The ARC Prize Foundation argues that these error patterns are directly relevant to real AI agents. Each of the 135 environments was solved by at least two humans without any special training. What makes the tasks hard for models is the same thing AI agents face in real work environments: navigating something completely unknown, forming a theory, testing it, and updating it when things don't add up. Whether it's an unfamiliar website, an internal tool, or an undocumented API. "Scores tell you what a model achieved. Replays tell you whether or not the reasoning is likely to generalize," Kamradt writes. The foundation plans to keep auditing every major frontier release with ARC-AGI-3. Other studies point to the same conclusion The analysis is likely to bolster AI critics who have argued for years that large language models are sophisticated pattern matchers that lack real understanding. When GPT-5.5 reflexively labels an unknown game environment as Breakout, it illustrates the idea that language models interpolate between learned patterns instead of forming abstract rules. And Opus 4.7 solving a level by chance and treating the false theory behind it as confirmed fits the criticism that current AI systems don't build causal world models but chase statistical correlations. Several other studies have reached similar conclusions. Apple researchers showed that reasoning models not only fail when complexity increases in controllable puzzle environments but paradoxically reason less. A large-scale cognitive science analysis of over 171,000 reasoning traces found that language models fall back on simple default strategies instead of actually reasoning when faced with hard tasks. And a medical study showed that even reasoning models current at the time of the study, such as DeepSeek-R1 and o3-mini, fail on slightly reworded questions, suggesting pattern matching rather than genuine understanding . AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now --> AI news without the hype Curated by huma