새 수학 벤치마크: AI의 자신만만한 허위 해답 폭로
카네기멜론대, 서울대 등 컨소시엄이 전 세계 64명의 수학자들과 함께 대규모 언어 모델(LLM)의 수학적 추론 능력을 평가하는 새로운 벤치마크 'SOOHAK'를 발표했습니다. 이 벤치마크는 기존 평가들이 간과했던 '풀 수 없는 문제(오류가 포함된 문제)를 얼마나 잘 걸러내는가'를 테스트하여, AI 모델들이 오류를 인지하지 못하고 자신만만하게 잘못된 답을 도출한다는 치명적인 약점을 밝혀냈습니다.
새로운 수학 벤치마크는 AI 모델들이 풀 수 없는 문제를 자신만만하게 풀어낸다는 사실을 보여준다.
64명의 수학자 컨소시엄이 AI 모델의 두 가지 약점인 '연구 수준의 수학'과 '풀 수 없는 과제 인식 능력'을 드러내는 새로운 벤치마크를 구축했습니다. 오늘날 최고 수준의 모델들이 이미 국제수학올림피아드(IMO) 금메달 수준에 도달함에 따라, AI 연구에는 새로운 수학 벤치마크가 필요해졌습니다.
카네기멜론 대학교, EleutherAI, 서울대학교 등에서 공동 개발한 'SOOHAK'은 439개의 완전히 새로운 문제로 구성되어 있습니다. 이는 대학원 및 연구 수준의 340개 문제로 이루어진 '챌린지(Challenge)' 세트와, 모순을 포함하거나 명확한 대답을 내릴 수 없어 의도적으로 결함이 있는 99개 문제로 이루어진 '거절(Refusal)' 세트로 나뉩니다.
일반적인 데이터셋과 달리 SOOHAK은 수학 대회나 교과서에서 가져오지 않았습니다. 모든 문제는 38명의 교수, 25명의 박사과정 학생 및 박사후연구원, 그리고 5명의 IMO 메달리스트 팀이 처음부터 새로 작성했습니다. 제출 전, 각 기여자는 AI의 도움 없이 작업했음을 확인해야 했습니다. LLM이 생성한 과제를 몰래 반영하다 적발된 사람은 모두 퇴출되었습니다.
연구 수준의 수학은 여전히 높은 장벽
저자들에 따르면, 구글의 Gemini 3 Pro가 챌린지 세트에서 30%로 가장 높은 점수를 기록했으며, 그 뒤를 이어 GPT-5(5.1, 5.2)가 26%를 차지했습니다. Claude Opus 4.5는 10%까지 떨어집니다. Kimi-2.5, Qwen3-235B, GPT-OSS-120B와 같은 오픈 웨이트(Open-weight) 모델들은 모두 15% 미만에 머물렀습니다.
테스트된 모델 중 챌린지 세트의 124개 문제 중 단 하나도 풀지 못한 모델은 없었습니다. 수학 올림피아드부터 대학 초기 수준까지 아우르는 상대적으로 쉬운 버전인 SOOHAK-Mini에서는 점수가 훨씬 높고, 상위 모델들 간의 점수 차이가 좁혀집니다. 그 격차는 연구 수준의 수학, 특히 오픈 웨이트 모델에서 크게 벌어집니다.
저자들은 이것이 오픈 웨이트 시스템들이 틈새 분야에서 학습 데이터 커버리지가 부족하여, 공개되지 않은 새로운 자료에 대한 전이 학습 성능이 더 떨어지기 때문이라고 설명합니다.
해답이 없을 때, 모델들은 그저 무작정 추측한다
기존 벤치마크와의 진정한 결별은 '거절(Refusal)' 세트입니다. 여기에는 가정이 누락되었거나 모순이 포함되어 있어 풀 수 없는 것으로 판명된 문제들이 포함되어 있습니다. 모델은 자신만만하게 숫자를 도출하는 대신, 문제의 결함을 발견하고 지적해야만 점수를 얻을 수 있습니다.
이 부문에서 50%의 고비를 넘는 모델은 단 하나도 없었습니다. 오픈 웨이트 모델인 GLM-5가 50% 바로 아래에서 가장 좋은 성능을 보였으며, GPT-5와 Gemini 3 Pro를 모두 이겼습니다. Qwen3 계열은 3% 미만으로 급락하여, 결함이 있는 문제를 올바르게 지적하는 데 거의 항상 실패했습니다.
저자들은 결함이 있는 문제를 감지하는 것을 "현재 모델들이 직접적으로 다루지 않는 새로운 최적화 목표"라고 설명합니다. 해결률은 모델이 커지고 추론에 할당하는 시간이 길어질수록 거의 선형적으로 증가합니다. 하지만 문제의 결함을 인지하고 해결을 거부하는 능력은 이러한 패턴을 따르지 않습니다. 더 많은 컴퓨팅 파워는 문제를 푸는 데는 도움이 되지만, 문제에 답이 없다는 사실을 인정하는 데는 도움이 되지 않습니다.
올림피아드 경험이 연구 심층성을 이긴다
인간과의 비교를 위해 팀은 IMO 메달리스트부터 수학 박사까지 5개 그룹의 25명의 참가자를 모집했습니다. 79개의 과제를 대상으로 한 테스트에서 이 그룹들은 전체의 51%를 해결했습니다. 오직 Gemini 3 Pro만이 이 전체 인간 해결률을 뛰어넘어 61%를 기록했습니다.
흥미롭게도 수학 박사 연구원들은 올림피아드 경험이 있는 학생들보다 실제로 성적이 낮았습니다. 저자들은 이를 형식 때문인 것으로 보았습니다. 즉, 4.5시간의 제한된 시간은 수학 대회에서 훈련된 짧은 해결 경로에 유리하게 작용하지만, 광범위한 주제를 다루는 이 벤치마크는 좁은 분야의 연구 전문가들에게는 유리하지 않기 때문입니다. 본질적으로 SOOHAK은 연구 심층성보다는 시간 압박 속에서의 경쟁적 수학을 주로 측정합니다.
2026년까지 비공개되는 데이터셋과 한계점
전체 데이터셋은 학습 데이터 오염을 방지하기 위한 조치로 2026년 말까지 공개되지 않을 예정입니다. 그때까지 팀은 요청 시 모델을 평가해 줄 것입니다.
저자들은 SOOHAK의 단점에 대해서도 솔직합니다. 명확한 수치 답안을 요구하는 방식은 증명, 작도 또는 반례를 통해 테스트해야 하는 광범위한 고급 수학의 영역을 배제하게 됩니다. 향후 버전에는 더 풍부한 형태의 문제가 필요할 것입니다.