최신 AI 모델들도 범하는 3가지 체계적 추론 오류
ARC-AGI-3 벤치마크 분석에 따르면, 최신 AI 모델들인 GPT-5.5와 Opus 4.7이 1% 미만의 저조한 성적을 기록하는 원인은 세 가지 체계적인 추론 오류 때문입니다. 이들은 세부 사항은 파악하지만 전체 맥락을 연결하지 못하고, 기존 학습 데이터에 얽매여 낯선 환경을 잘못된 게임 규칙으로 해석하며, 우연히 성공하더라도 그 원리를 검증하지 않아 다음 단계를 풀지 못하는 치명적인 한계를 보였습니다.
ARC-AGI-3 분석 결과, 최신 AI 모델들조차 세 가지 체계적인 추론 오류를 범하는 것으로 나타났습니다. (작성자: Matthias Bastian / 2026년 5월 2일)
ARC Prize Foundation은 ARC-AGI-3 벤치마크에서 OpenAI의 GPT-5.5와 Anthropic의 Opus 4.7의 160번의 게임 플레이를 분석했습니다. 이 결과는 두 모델의 점수가 모두 1% 미만에 머무는 이유를 설명해주는 세 가지 체계적인 오류 패턴을 보여줍니다.
AI 벤치마크는 대개 모델이 테스트를 통과했는지 실패했는지만 보여줍니다. ARC Prize Foundation은 새로운 분석을 통해 한 걸음 더 나아갔습니다. 팀은 ARC-AGI-3의 인터랙티브 환경에서 OpenAI의 GPT-5.5와 Anthropic의 Opus 4.7의 160개 리플레이와 추론 과정(reasoning traces)을 평가했습니다. 2026년 3월 말에 출시된 이 벤치마크는 인터랙티브한 턴 방식 게임 환경에서 AI 시스템을 테스트합니다. 정적인 패턴 인식에 의존했던 이전 모델들과 달리, 이 AI 에이전트들은 지시 없이 스스로 환경을 탐색하고 가설을 세우며 행동 계획을 수행해야 합니다. 지금까지 테스트된 모든 최신 프론티어 모델은 1% 미만의 점수를 기록했지만, 인간은 사전 지식 없이도 동일한 작업을 해결했습니다.
최신 결과도 다르지 않습니다. GPT-5.5는 약 10,000달러의 비용을 들여 0.43%를 기록했고, Opus 4.7은 겨우 0.18%를 달성했습니다. 벤치마크 개발자들에 따르면, 더 흥미로운 부분은 이러한 실패 이면에 있는 추론 과정입니다. 모델이 해결 시도를 기록한 '추론 과점'을 통해 개발자들은 모델이 정확히 어디에서 가설을 세웠고, 어디에서 올바른 가설을 기각했으며, 어디에서 잘못된 가설에 갇혔는지 추적할 수 있었습니다.
세부 사항은 보지만 전체 맥락을 놓친다 분석 결과 두 모델이 다소 다른 방식이긴 하지만 공통적으로 공유하는 세 가지 체계적인 오류 패턴이 확인되었습니다. 가장 흔한 패턴은 모델이 국소적인 효과는 올바르게 파악하지만 이를 작동하는 세계 모델(world model)로 통합하지 못한다는 것입니다. 모델은 특정 행동이 물체를 회전시킨다는 것을 인식할 수 있지만, 그 회전이 어느 면이 새로운 값을 받을지 결정하고 다음 행동 전에 물체를 정렬해야 한다는 것은 깨닫지 못합니다. 분석에 따르면 cd82 게임에서 Opus 4.7은 4단계에서 ACTION3이 컨테이너를 회전시킨다는 것을 이미 알고 있었습니다. 6단계에서는 ACTION5가 페인트를 붓는다는 것을 인식했습니다. 하지만 모델은 이러한 관찰 결과들을 연결하여, 왼쪽 상단의 목표 이미지를 재현하기 위해 양동이를 정렬한 다음 담가야 한다는 사실을 깨닫지 못했습니다. cn04에서도 비슷한 패턴이 나타났습니다. Opus는 23단계에서 올바른 '회전 후 배치' 상호작용을 찾았지만, 이내 잘못된 대상을 위해 최적화를 진행하며 존재하지도 않는 진행률 표시줄을 추적하기 시작했습니다.
학습 데이터가 낳은 잘못된 유추 두 번째 오류 패턴은 모델이 알 수 없는 환경을 학습 데이터에 익숙한 게임들과 혼동한다는 것입니다. 여러 차례 플레이 과정에서 모델들은 알 수 없는 게임 메커니즘을 테트리스(Tetris), 프로거(Frogger), 소코반(Sokoban), 브레이크아웃(Breakout), 퐁(Pong) 또는 보울더 대시(Boulder Dash)로 잘못 해석했습니다. 느슨한 시각적 유사성이 완전한 게임 플레이 이론으로 비화되고, 모델은 잘못된 메커니즘에 행동을 낭비합니다. 예를 들어, GPT-5.5는 ls20 환경을 실제로는 키 조합을 요구하는 게임임에도 불구하고 브레이크아웃으로 해석했습니다. 모델은 추론 과정에서 "또 다시 보면, 상단에 벽돌이 있고 패들이 있는 '브레이크아웃'과 더 비슷할 수도 있겠네요. 중앙의 물체가 공일 수도 있습니다"라고 기록했습니다. 이 전혀 근거 없는 가정은 진전 가능성을 완전히 차단해 버렸습니다. 이는 브레이크아웃에 익숙한 인간이라면 거의 범하지 않을 실수입니다.
레벨을 클리어했다고 게임을 이해한 것은 아니다 세 번째 오류 패턴은 아마도 가장 치명적일 수 있습니다. 모델이 레벨을 풀더라도 그 성공이 더 깊은 이해로 이어지지 않는데, 이는 모델이 자신의 전략이 왜 효과가 있었는지 결코 확인하지 않기 때문입니다. ka59에서 Opus는 1번 레벨을 37번의 행동 만에 풀었지만 이는 잘못된 이론에 기반한 것이었습니다. 클릭하면 활성 캐릭터가 순간이동한다고 가정한 것입니다. 실제로는 이 게임은 도형을 맞추고 밀어내는 것을 요구했습니다. 1번 레벨이 풀린 이유는 단순히 단순한 구조 덕분에 잘못된 메커니즘을 사용했음에도 우연히 목표에 도달했기 때문입니다. 모델은 이러한 성공을 자신의 가설에 대한 확인으로 여겼습니다.