메뉴
HN
Hacker News 22일 전

ChatGPT 5.5 Pro와의 최근 경험

IMP
9/10
핵심 요약

유명 수학자가 ChatGPT 5.5 Pro를 테스트한 결과, 아무런 수학적 도움 없이도 단 한 시간 만에 박사 후 과정(Postdoc) 수준의 연구 결과를 도출해냈습니다. 이는 단순히 기존 문헌을 검색하는 것을 넘어, 인간이 놓친 수학적 증명이나 공개되어 있던 난제들을 스스로 풀어내는 LLM의 진화된 문제 해결 능력을 보여줍니다. AI의 수학적 추론 능력이 상향 평준화됨에 따라, 앞으로 수학계는 AI가 풀 수 없을 만큼 진정으로 난이도가 높은 문제를 내는 것을 '새로운 기준'으로 삼아야 할 패러다임 전환에 직면했습니다.

번역된 본문

Gowers의 웹로그 수학 관련 토론 « 그룹 및 반그룹 퍼즐과 가능한 Polymath 프로젝트

ChatGPT 5.5 Pro와의 최근 경험

우리 모두는 대형 언어 모델(LLM)의 수학적 능력에 대한 평가를 계속해서 상향 조정해야 하는 상황에 직면해 있습니다. 저는 운 좋게도 ChatGPT 5.5 Pro에 대한 접근 권한을 얻게 되었는데, 저의 진지한 수학적 개입 없이도 이 모델이 불과 한 시간 정도 만에 박사 후 과정(Postdoc) 수준의 연구 결과물을 만들어낸 것을 보고 평가를 꽤 크게 수정했습니다.

그 배경은 널리 보도된 바와 같이, LLM이 이제 연구 수준의 문제를 해결할 수 있으며 Thomas Bloom의 훌륭한 웹사이트에 나열된 에르되시 문제(Erdős problems) 중 여러 개를 풀어냈다는 것입니다. 처음에는 이를 웃어넘길 수 있었습니다. 많은 "해결책"이 LLM이 문제에 대한 정답이 이미 문헌에 존재한다는 것을 알아차렸거나, 기존의 알려진 결과에서 매우 쉽게 추론해 낸 것에 불과했기 때문입니다. 하지만 조금씩 그 웃음소리는 잦아들었습니다. 이 분야에 더 깊이 관여하고 있는 다른 수학자들의 말을 종합해 보면, LLM은 인간 수학자가 어떤 이유로(그 이유가 항상 그런 것은 아니지만, 문제가 그렇게 많은 주목을 받지 못했기 때문인 경우도 종종 있습니다) 간과한 쉬운 논증이 있는 문제를 발견할 가능성이 높은 수준에 도달했습니다.

반대로, LLM이 영리한 논증을 내놓았다는 사실에 처음에는 감탄하게 되는 문제들도 자세히 살펴보면 그러한 논증에 대한 선례가 이미 존재하는 경우가 많습니다. 따라서 LLM이 단지 기존 지식을 조합하는 것일 뿐 진정으로 독창적인 아이디어를 가진 것은 아니라고 스스로를 위안하는 것은 아직 어느 정도 가능합니다. 그 위안이 어느 정도인지는 여기서 논하지 않겠습니다. 다만, 훌륭한 수많은 인간의 수학 연구 역시 기존 지식과 증명 기술을 조합하는 것으로 이루어져 있다는 점은 지적해 두겠습니다.

저는 약간 다른 것을 시도해 보기로 결심했습니다. 적어도 조합수학에서는 자연스럽게 여러 질문을 이끌어내는 비교적 새로운 조합 매개변수를 연구하는 논문이 꽤 많습니다. 제기할 수 있는 질문의 수가 너무 많기 때문에, 그러한 논문의 저자들이 각 질문에 대해 일주일이나 두 주의 시간을 들여 생각할 필요는 없으며, 따라서 그 중 적어도 일부는 그다지 어렵지 않을 적당한 확률이 존재합니다. 이러한 점 때문에 이런 논문들은 처음으로 연구를 수행하는 수학자들에게 귀중한 문제의 원천이 되었으며, 공식적으로 풀리지 않은 문제를 해결함으로써 그들은 큰 격려를 받을 수 있었습니다. 오히려, 과거에는 그런 방식으로 가치 있었던 것이 이제는 그 기준이 높아진 것처럼 보입니다. 이제는 누군가 문제를 제시하는 것만으로는 충분하지 않으며, LLM이 풀 수 없을 만큼 충분히 어려워야 한다는 것입니다.

어쨌든, 일주일이 조금 넘는 시점에 저는 Mel Nathanson이 '가법적 정수론에서 문제에 대한 다양성, 형평성 및 포용성(Diversity, Equity and Inclusion for Problems in Additive Number Theory)'이라는 제목의 논문에서 제시한 여러 문제들을 통해 ChatGPT 5.5 Pro가 어떻게 해결할지 시험해 보기로 했습니다. Nathanson은 나중에 대유행하게 된 문제와 정리에 관심을 갖는 놀라운 기록을 가지고 있으며, 이로 인해 그는 절묘한 타이밍에 출판되어 결과적으로 매우 영향력 있는 교과서 시리즈를 집필하게 되었습니다. 이 논문에서 그는 몇 가지 다른 문제들이 가진 흥미로운 점을 주장하며, 그 중 일부를 이제 간단히 설명하겠습니다.

만약 A가 정수의 집합이라면, 그 합집합(sumset)은 A+A로 정의됩니다. 양의 정수 h에 대해, h-겹 합집합으로 표시되는 hA는 A+A+...+A(h번)로 정의됩니다. Nathanson은 집합 A의 크기가 주어졌을 때 hA의 가능한 크기에 관심을 가지고 있습니다. 이를 위해 어떤 집합을 h가 속하는 모든 n의 집합으로 정의할 수 있으며, 이때 집합 A가 존재하여 A의 크기가 주어진 크기가 되고 hA의 크기가 n이 됩니다. 가장 먼저 던질 수 있는 명백한 질문은 "그 집합은 무엇인가?"입니다. h가 2일 때, 정답은 k와 2k 사이의 모든 정수의 집합입니다. k가 3보다 크거나 같으면 n의 범위가 k보다 크거나 같고 2k보다 작거나 같다는 것을 보여주는 것은 쉬운 연습 문제입니다. 따라서 이 결과는 그 사이의 모든 크기를 실현할 수 있다는 것을 말해줍니다. 하지만 일반적으로 n이 특정 범위를 벗어날 수 없다는 것이 항상 참인 것은 아닙니다.

원문 보기
원문 보기 (영어)
Gowers's Weblog Mathematics related discussions « Group and semigroup puzzles and a possible Polymath project A recent experience with ChatGPT 5.5 Pro We are all having to keep revising upwards our assessments of the mathematical capabilities of large language models. I have just made a fairly large revision as a result of ChatGPT 5.5 Pro, to which I am fortunate to have been given access, producing a piece of PhD-level research in an hour or so, with no serious mathematical input from me. The background is that, as has been widely reported, LLMs are now capable of solving research-level problems, and have managed to solve several of the Erdős problems listed on Thomas Bloom's wonderful website . Initially it was possible to laugh this off: many of the "solutions" consisted in the LLM noticing that the problem had an answer sitting there in the literature already, or could be very easily deduced from known results. But little by little the laughter has become quieter. The message I am getting from what other mathematicians more involved in this enterprise have been saying is that LLMs have got to the point where if a problem has an easy argument that for one reason or another human mathematicians have missed (that reason sometimes, but not always, being that the problem has not received all that much attention), then there is a good chance that the LLMs will spot it. Conversely, for problems where one's initial reaction is to be impressed that an LLM has come up with a clever argument, it often turns out on closer inspection that there are precedents for those arguments, so it is still just about possible to comfort oneself that LLMs are merely putting together existing knowledge rather than having truly original ideas. How much of a comfort that is I will not discuss here, other than to note that quite a lot of perfectly good human mathematics consists in putting together existing knowledge and proof techniques. I decided to try something a little bit different. At least in combinatorics, there are quite a lot of papers that investigate some relatively new combinatorial parameter that leads naturally to several questions. Because of the sheer number of questions one can ask, the authors of such papers will not necessarily have the time to spend a week or two thinking about each one, so there is a decent probability that at least some of them will not be all that hard. This makes such papers very valuable as sources of problems for mathematicians who are doing research for the first time and who will be hugely encouraged by solving a problem that was officially open. Or rather, it used to make them valuable in that way, but it looks as though the bar has just been raised. It is no longer enough that somebody asks a problem: it needs to be hard enough for an LLM not to be able to solve it. In any case, a little over a week ago I decided to see how ChatGPT 5.5 Pro would fare with a selection of problems asked by Mel Nathanson in a paper entitled Diversity, Equity and Inclusion for Problems in Additive Number Theory . Nathanson has a remarkable record of being interested in problems and theorems that have later become extremely fashionable, which has led him to write a series of extremely well timed and therefore highly influential textbooks. In this paper, he argues for the interest of several other problems, some of which I will now briefly describe. If is a set of integers, then its sumset is defined to be . For a positive integer , the - fold sumset , denoted , is defined to be . Nathanson is interested in the possible sizes of given the size of . To that end one can define a set to be the set of all such that there exists a set with and . An obvious first question to ask is simply "What is ?" When , the answer is the set of all integers between and . It is an easy exercise to show that if , then , so this result is saying that all sizes in between can be realized. However, it is not true in general that can take every size between its minimum and maximum possibilities, and we do not currently have a complete description of . Another natural question one can ask, and this is where ChatGPT came in, is how large a diameter you need if you want a set with and having prescribed sizes. (Of course, the size of must belong to .) Nathanson showed that for every there is a subset of with and , and asked whether the bound could be improved. ChatGPT 5.5 Pro thought for 17 minutes and 5 seconds before providing a construction that yielded a quadratic upper bound, which is clearly best possible. It wrote up its argument in a slightly rambling LLM-ish style, so I asked if it could write the argument up as a LaTeX file in the style of a typical mathematical preprint. After two minutes and 23 seconds it gave me that, after which I spent some time convincing myself that the argument was correct. The basic idea behind both Nathanson's argument and ChatGPT's was that in order to obtain a set of a given size with a sumset of a given size, it is useful to build it out of a Sidon set, which means a set with sumset of maximal size (that is not quite the usual definition but it is the simplest to use in this discussion), and an arithmetic progression. Also, for a bit of fine tuning one can take an additional point near the arithmetic progression. Then if one plays around with the various parameters, one finds that one can obtain sets of all the sizes one wants. Nathanson doesn't express his argument this way (it is Theorem 5 of this paper ), instead giving an inductive argument, but I think, without having checked too carefully, that if one unravels his argument, one finds that effectively that is what he ends up with, and the Sidon set in question consists of powers of 2. ChatGPT obtained its improvement by simply using a more efficient Sidon set — it is well known that one can find Sidon sets of quadratic diameter. (One might ask why Nathanson didn't do that in the first place: I think it is because the obvious idea of using a more efficient Sidon set becomes obvious only after one has redescribed his inductive construction. Is that what ChatGPT did? It is very hard to say.) Next, I asked ChatGPT to see whether it could do the same for a closely related question, where instead of looking at the size of the sumset, one looks at the size of the restricted sumset, which is defined to be . Unsurprisingly, it was able to do that with no trouble at all. I got it to write both results up in a single note, to avoid a certain amount of duplication. If you are curious, you can see the note here . I then asked what it could do for general . I was much less optimistic that it would manage to do anything interesting, because the proof for makes fundamental use of the fact (due to Erdős and Szemerédi) that we know exactly which sizes we need to create. If we don't know what the set is, then it seems that we are forced to start with a hypothetical set with and and build out of it a set of small diameter with the same property. As it happens, I still don't know how to get round that difficulty (I'm mentioning that just to demonstrate that my mathematical input was zero, and I didn't even do anything clever with the prompts), but Nathanson mentioned in his paper a remarkable paper of Isaac Rajagopal, a student at MIT, who must have got round the difficulty somehow, because he had managed to prove an exponential dependence of on for each fixed . I'll leave the previous paragraph there, but Isaac has subsequently explained to me that that isn't really the difficulty. His argument gives a complete description of when is sufficiently large, and if one wants to prove a polynomial dependence for fixed , then assuming that is sufficiently large is clearly permitted. The real difficulty is that constructing the sets with given sumset sizes was significantly more complicated, and necessarily so because the degree of the polynomial grows with , and one therefore needs more and m
관련 소식