메뉴
BL
The Decoder 14일 전

새 수학 벤치마크: AI의 자신만만한 허위 해답 폭로

IMP
7/10
핵심 요약

카네기멜론대, 서울대 등 컨소시엄이 전 세계 64명의 수학자들과 함께 대규모 언어 모델(LLM)의 수학적 추론 능력을 평가하는 새로운 벤치마크 'SOOHAK'를 발표했습니다. 이 벤치마크는 기존 평가들이 간과했던 '풀 수 없는 문제(오류가 포함된 문제)를 얼마나 잘 걸러내는가'를 테스트하여, AI 모델들이 오류를 인지하지 못하고 자신만만하게 잘못된 답을 도출한다는 치명적인 약점을 밝혀냈습니다.

번역된 본문

새로운 수학 벤치마크는 AI 모델들이 풀 수 없는 문제를 자신만만하게 풀어낸다는 사실을 보여준다.

64명의 수학자 컨소시엄이 AI 모델의 두 가지 약점인 '연구 수준의 수학'과 '풀 수 없는 과제 인식 능력'을 드러내는 새로운 벤치마크를 구축했습니다. 오늘날 최고 수준의 모델들이 이미 국제수학올림피아드(IMO) 금메달 수준에 도달함에 따라, AI 연구에는 새로운 수학 벤치마크가 필요해졌습니다.

카네기멜론 대학교, EleutherAI, 서울대학교 등에서 공동 개발한 'SOOHAK'은 439개의 완전히 새로운 문제로 구성되어 있습니다. 이는 대학원 및 연구 수준의 340개 문제로 이루어진 '챌린지(Challenge)' 세트와, 모순을 포함하거나 명확한 대답을 내릴 수 없어 의도적으로 결함이 있는 99개 문제로 이루어진 '거절(Refusal)' 세트로 나뉩니다.

일반적인 데이터셋과 달리 SOOHAK은 수학 대회나 교과서에서 가져오지 않았습니다. 모든 문제는 38명의 교수, 25명의 박사과정 학생 및 박사후연구원, 그리고 5명의 IMO 메달리스트 팀이 처음부터 새로 작성했습니다. 제출 전, 각 기여자는 AI의 도움 없이 작업했음을 확인해야 했습니다. LLM이 생성한 과제를 몰래 반영하다 적발된 사람은 모두 퇴출되었습니다.

연구 수준의 수학은 여전히 높은 장벽

저자들에 따르면, 구글의 Gemini 3 Pro가 챌린지 세트에서 30%로 가장 높은 점수를 기록했으며, 그 뒤를 이어 GPT-5(5.1, 5.2)가 26%를 차지했습니다. Claude Opus 4.5는 10%까지 떨어집니다. Kimi-2.5, Qwen3-235B, GPT-OSS-120B와 같은 오픈 웨이트(Open-weight) 모델들은 모두 15% 미만에 머물렀습니다.

테스트된 모델 중 챌린지 세트의 124개 문제 중 단 하나도 풀지 못한 모델은 없었습니다. 수학 올림피아드부터 대학 초기 수준까지 아우르는 상대적으로 쉬운 버전인 SOOHAK-Mini에서는 점수가 훨씬 높고, 상위 모델들 간의 점수 차이가 좁혀집니다. 그 격차는 연구 수준의 수학, 특히 오픈 웨이트 모델에서 크게 벌어집니다.

저자들은 이것이 오픈 웨이트 시스템들이 틈새 분야에서 학습 데이터 커버리지가 부족하여, 공개되지 않은 새로운 자료에 대한 전이 학습 성능이 더 떨어지기 때문이라고 설명합니다.

해답이 없을 때, 모델들은 그저 무작정 추측한다

기존 벤치마크와의 진정한 결별은 '거절(Refusal)' 세트입니다. 여기에는 가정이 누락되었거나 모순이 포함되어 있어 풀 수 없는 것으로 판명된 문제들이 포함되어 있습니다. 모델은 자신만만하게 숫자를 도출하는 대신, 문제의 결함을 발견하고 지적해야만 점수를 얻을 수 있습니다.

이 부문에서 50%의 고비를 넘는 모델은 단 하나도 없었습니다. 오픈 웨이트 모델인 GLM-5가 50% 바로 아래에서 가장 좋은 성능을 보였으며, GPT-5와 Gemini 3 Pro를 모두 이겼습니다. Qwen3 계열은 3% 미만으로 급락하여, 결함이 있는 문제를 올바르게 지적하는 데 거의 항상 실패했습니다.

저자들은 결함이 있는 문제를 감지하는 것을 "현재 모델들이 직접적으로 다루지 않는 새로운 최적화 목표"라고 설명합니다. 해결률은 모델이 커지고 추론에 할당하는 시간이 길어질수록 거의 선형적으로 증가합니다. 하지만 문제의 결함을 인지하고 해결을 거부하는 능력은 이러한 패턴을 따르지 않습니다. 더 많은 컴퓨팅 파워는 문제를 푸는 데는 도움이 되지만, 문제에 답이 없다는 사실을 인정하는 데는 도움이 되지 않습니다.

올림피아드 경험이 연구 심층성을 이긴다

인간과의 비교를 위해 팀은 IMO 메달리스트부터 수학 박사까지 5개 그룹의 25명의 참가자를 모집했습니다. 79개의 과제를 대상으로 한 테스트에서 이 그룹들은 전체의 51%를 해결했습니다. 오직 Gemini 3 Pro만이 이 전체 인간 해결률을 뛰어넘어 61%를 기록했습니다.

흥미롭게도 수학 박사 연구원들은 올림피아드 경험이 있는 학생들보다 실제로 성적이 낮았습니다. 저자들은 이를 형식 때문인 것으로 보았습니다. 즉, 4.5시간의 제한된 시간은 수학 대회에서 훈련된 짧은 해결 경로에 유리하게 작용하지만, 광범위한 주제를 다루는 이 벤치마크는 좁은 분야의 연구 전문가들에게는 유리하지 않기 때문입니다. 본질적으로 SOOHAK은 연구 심층성보다는 시간 압박 속에서의 경쟁적 수학을 주로 측정합니다.

2026년까지 비공개되는 데이터셋과 한계점

전체 데이터셋은 학습 데이터 오염을 방지하기 위한 조치로 2026년 말까지 공개되지 않을 예정입니다. 그때까지 팀은 요청 시 모델을 평가해 줄 것입니다.

저자들은 SOOHAK의 단점에 대해서도 솔직합니다. 명확한 수치 답안을 요구하는 방식은 증명, 작도 또는 반례를 통해 테스트해야 하는 광범위한 고급 수학의 영역을 배제하게 됩니다. 향후 버전에는 더 풍부한 형태의 문제가 필요할 것입니다.

원문 보기
원문 보기 (영어)
New math benchmark reveals AI models confidently solve problems that have no solution Jonathan Kemper View the LinkedIn Profile of Jonathan Kemper May 17, 2026 Nano Banana Pro prompted by THE DECODER A consortium of 64 mathematicians built a new benchmark for AI models that exposes two weaknesses: research-level math and the ability to recognize unsolvable tasks. With today's frontier models already hitting IMO Gold level , AI research needs new math benchmarks. SOOHAK, developed at Carnegie Mellon University, EleutherAI, and Seoul National University, among others, consists of 439 original tasks. They're split into two sections: a "Challenge" set with 340 problems at the graduate and research level, and a "Refusal" set with 99 intentionally flawed problems that contain contradictions or don't allow a clear answer. Unlike common collections, SOOHAK wasn't pulled from competitions or textbooks. Every problem was written from scratch by a team of 38 professors, 25 PhD students and postdocs, and five IMO medalists. Before submitting, each contributor had to confirm they worked without AI help. Anyone caught sneaking in LLM-generated tasks was kicked out. Research-level math is still a wall According to the authors, Google's Gemini 3 Pro scored highest on the challenge set at 30 percent, followed by GPT-5 (5.1, 5.2) at 26 percent. Claude Opus 4.5 drops to 10 percent. Open-weight models like Kimi-2.5, Qwen3-235B, and GPT-OSS-120B all stay below 15 percent. Not a single model tested could solve 124 of the challenge tasks. On the easier companion set SOOHAK-Mini—which ranges from school olympiad to early college level—scores are much higher, and the top models cluster closer together. The gap only opens up at research-level math, especially for open-weight models. The authors say this suggests open-weight systems transfer worse to unpublished material because they lack training coverage in niche areas. When there's no solution, models guess anyway The real break with earlier benchmarks is the refusal set. It contains problems that were flagged as unsolvable during quality control, because they're missing assumptions or contain contradictions. A model only gets credit if it spots and names the flaw instead of confidently producing a number. No model clears the 50 percent mark here. The open-weight GLM-5 performs best at just under 50 percent, beating both GPT-5 and Gemini 3 Pro. The Qwen3 family collapses to less than 3 percent, almost always failing to correctly flag a broken problem. The authors describe detecting flawed problems as "a new optimization target that current models do not directly address." Solution rates climb almost linearly with bigger models and longer reasoning budgets. Refusal doesn't follow the same pattern. More compute makes models better at solving. It doesn't make them better at admitting a problem has no answer. Olympiad experience beats research depth For a human comparison, the team recruited 25 participants across five groups, from IMO medalists to PhD mathematicians. On a selection of 79 tasks, the groups together solved 51 percent. Only Gemini-3-Pro beat that combined human coverage, hitting 61 percent. The PhD researchers actually did worse than students with Olympiad backgrounds. The authors chalk this up to format: the 4.5-hour time window rewards short solution paths trained in math competitions, while the benchmark's broad topic range doesn't help narrow research specialists. SOOHAK primarily measures competitive math under time pressure, not research depth. Dataset locked until 2026, and the format has gaps The full dataset won't be public until the end of 2026, a precaution against training data contamination. Until then, the team will evaluate models on request. The authors are open about SOOHAK's shortcomings : requiring clean numerical answers leaves out large swaths of higher math that would be better tested through proofs, constructions, or counterexamples. A future version would need richer formats, like formal proof assistants or expert review panels. How far AI models actually get in research math is still an open question. Fields Medalist Timothy Gowers recently said ChatGPT 5.5 Pro produced a PhD-level result in number theory in under two hours, turning an exponential bound into a polynomial one. GPT-5.2 Pro came up with a new proof of Erdos problem #281 that mathematician Terence Tao called "rather different" from earlier proofs. Tao is careful not to read too much into those wins , though. When he ran a systematic check across open Erdos problems, the models' real success rate was just one to two percent, and mostly on the easier ones. That gap between a few flashy results and actual broad research skill is what SOOHAK tries to pin down. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now --> Read on for the full picture. Subscribe for hype-free coverage. Access to all THE DECODER articles. Read without distractions – no Google ads. Access to comments and community discussions. Weekly AI newsletter. 6 times a year: “AI Radar” – deep dives on key AI topics. Up to 25 % off on KI Pro online events. Access to our full ten-year archive. Get the latest AI news from The Decoder. Subscribe to The Decoder -->