ChatGPT 5.5 Pro와의 최근 경험
유명 수학자가 ChatGPT 5.5 Pro를 테스트한 결과, 아무런 수학적 도움 없이도 단 한 시간 만에 박사 후 과정(Postdoc) 수준의 연구 결과를 도출해냈습니다. 이는 단순히 기존 문헌을 검색하는 것을 넘어, 인간이 놓친 수학적 증명이나 공개되어 있던 난제들을 스스로 풀어내는 LLM의 진화된 문제 해결 능력을 보여줍니다. AI의 수학적 추론 능력이 상향 평준화됨에 따라, 앞으로 수학계는 AI가 풀 수 없을 만큼 진정으로 난이도가 높은 문제를 내는 것을 '새로운 기준'으로 삼아야 할 패러다임 전환에 직면했습니다.
Gowers의 웹로그 수학 관련 토론 « 그룹 및 반그룹 퍼즐과 가능한 Polymath 프로젝트
ChatGPT 5.5 Pro와의 최근 경험
우리 모두는 대형 언어 모델(LLM)의 수학적 능력에 대한 평가를 계속해서 상향 조정해야 하는 상황에 직면해 있습니다. 저는 운 좋게도 ChatGPT 5.5 Pro에 대한 접근 권한을 얻게 되었는데, 저의 진지한 수학적 개입 없이도 이 모델이 불과 한 시간 정도 만에 박사 후 과정(Postdoc) 수준의 연구 결과물을 만들어낸 것을 보고 평가를 꽤 크게 수정했습니다.
그 배경은 널리 보도된 바와 같이, LLM이 이제 연구 수준의 문제를 해결할 수 있으며 Thomas Bloom의 훌륭한 웹사이트에 나열된 에르되시 문제(Erdős problems) 중 여러 개를 풀어냈다는 것입니다. 처음에는 이를 웃어넘길 수 있었습니다. 많은 "해결책"이 LLM이 문제에 대한 정답이 이미 문헌에 존재한다는 것을 알아차렸거나, 기존의 알려진 결과에서 매우 쉽게 추론해 낸 것에 불과했기 때문입니다. 하지만 조금씩 그 웃음소리는 잦아들었습니다. 이 분야에 더 깊이 관여하고 있는 다른 수학자들의 말을 종합해 보면, LLM은 인간 수학자가 어떤 이유로(그 이유가 항상 그런 것은 아니지만, 문제가 그렇게 많은 주목을 받지 못했기 때문인 경우도 종종 있습니다) 간과한 쉬운 논증이 있는 문제를 발견할 가능성이 높은 수준에 도달했습니다.
반대로, LLM이 영리한 논증을 내놓았다는 사실에 처음에는 감탄하게 되는 문제들도 자세히 살펴보면 그러한 논증에 대한 선례가 이미 존재하는 경우가 많습니다. 따라서 LLM이 단지 기존 지식을 조합하는 것일 뿐 진정으로 독창적인 아이디어를 가진 것은 아니라고 스스로를 위안하는 것은 아직 어느 정도 가능합니다. 그 위안이 어느 정도인지는 여기서 논하지 않겠습니다. 다만, 훌륭한 수많은 인간의 수학 연구 역시 기존 지식과 증명 기술을 조합하는 것으로 이루어져 있다는 점은 지적해 두겠습니다.
저는 약간 다른 것을 시도해 보기로 결심했습니다. 적어도 조합수학에서는 자연스럽게 여러 질문을 이끌어내는 비교적 새로운 조합 매개변수를 연구하는 논문이 꽤 많습니다. 제기할 수 있는 질문의 수가 너무 많기 때문에, 그러한 논문의 저자들이 각 질문에 대해 일주일이나 두 주의 시간을 들여 생각할 필요는 없으며, 따라서 그 중 적어도 일부는 그다지 어렵지 않을 적당한 확률이 존재합니다. 이러한 점 때문에 이런 논문들은 처음으로 연구를 수행하는 수학자들에게 귀중한 문제의 원천이 되었으며, 공식적으로 풀리지 않은 문제를 해결함으로써 그들은 큰 격려를 받을 수 있었습니다. 오히려, 과거에는 그런 방식으로 가치 있었던 것이 이제는 그 기준이 높아진 것처럼 보입니다. 이제는 누군가 문제를 제시하는 것만으로는 충분하지 않으며, LLM이 풀 수 없을 만큼 충분히 어려워야 한다는 것입니다.
어쨌든, 일주일이 조금 넘는 시점에 저는 Mel Nathanson이 '가법적 정수론에서 문제에 대한 다양성, 형평성 및 포용성(Diversity, Equity and Inclusion for Problems in Additive Number Theory)'이라는 제목의 논문에서 제시한 여러 문제들을 통해 ChatGPT 5.5 Pro가 어떻게 해결할지 시험해 보기로 했습니다. Nathanson은 나중에 대유행하게 된 문제와 정리에 관심을 갖는 놀라운 기록을 가지고 있으며, 이로 인해 그는 절묘한 타이밍에 출판되어 결과적으로 매우 영향력 있는 교과서 시리즈를 집필하게 되었습니다. 이 논문에서 그는 몇 가지 다른 문제들이 가진 흥미로운 점을 주장하며, 그 중 일부를 이제 간단히 설명하겠습니다.
만약 A가 정수의 집합이라면, 그 합집합(sumset)은 A+A로 정의됩니다. 양의 정수 h에 대해, h-겹 합집합으로 표시되는 hA는 A+A+...+A(h번)로 정의됩니다. Nathanson은 집합 A의 크기가 주어졌을 때 hA의 가능한 크기에 관심을 가지고 있습니다. 이를 위해 어떤 집합을 h가 속하는 모든 n의 집합으로 정의할 수 있으며, 이때 집합 A가 존재하여 A의 크기가 주어진 크기가 되고 hA의 크기가 n이 됩니다. 가장 먼저 던질 수 있는 명백한 질문은 "그 집합은 무엇인가?"입니다. h가 2일 때, 정답은 k와 2k 사이의 모든 정수의 집합입니다. k가 3보다 크거나 같으면 n의 범위가 k보다 크거나 같고 2k보다 작거나 같다는 것을 보여주는 것은 쉬운 연습 문제입니다. 따라서 이 결과는 그 사이의 모든 크기를 실현할 수 있다는 것을 말해줍니다. 하지만 일반적으로 n이 특정 범위를 벗어날 수 없다는 것이 항상 참인 것은 아닙니다.
원문 보기 (영어)
ChatGPT 이미지 모델, 수학 능력이 대다수 사람보다 뛰어나
ChatGPT의 이미지 인식 모델이 복잡한 수학적 증명 문제를 성공적으로 풀어내는 모습을 보여주었습니다. 이는 단순한 시각적 인식을 넘어, 수식을 정확히 해석하고 논리적 추론을 수행하는 모델의 고도화된 능력을 입증하는 사례입니다. AI가 인간 전문가 수준의 수학적 문제 해결 능력을 갖추게 되었다는 점에서 기술적 진전을 보여줍니다.
Fields Medalist says ChatGPT 5.5 Pro delivered "PhD-level" math research in under two hours with zero human help
[요약 오류] Fields Medalist says ChatGPT 5.5 Pro delivered "PhD-level" math research in under two hours with zero human help