구글 딥마인드 AI, 수백 달러로 수십년 난제 풀다
구글 딥마인드가 개발한 '알파프루프 넥서스(AlphaProof Nexus)' 프레임워크가 353개의 미해결 에르되시(Erdős) 수학 문제 중 9개를 자율적으로 해결했습니다. 이 시스템은 LLM이 Lean이라는 형식 언어로 증명 단계를 생성하고 컴파일러가 이를 검증하는 방식으로 추론 비용 문제당 단 몇 백 달러에 불과했습니다. 이는 수학적 증명 분야에서 전문적인 훈련 시스템에서 벗어나, 강력한 범용 LLM과 단순한 에이전트 루프가 결합하는 AI의 새로운 패러다임을 보여줍니다.
구글 딥마인드의 알파프루프 넥서스, 수십 년간 수학자들을 괴롭힌 연구 난제 해결
구글 딥마인드의 새로운 프레임워크인 알파프루프 넥서스(AlphaProof Nexus)가 시도한 353개의 미해결 에르되시(Erdős) 문제 중 9개를 자율적으로 해결했으며, 여기에는 56년 동안 답이 없었던 두 가지 질문도 포함되어 있습니다.
이 시스템은 온라인 정수열 백과사전(OEIS)의 492개 미해결 추측 중 44개를 증명했고, 대수 기하학에서 힐베르트 함수(Hilbert functions)에 대한 15년 된 질문에 종지부를 찍었으며, 볼록 최적화(convex optimization)의 기존 경계를 개선했습니다. 연구 논문에 따르면, 문제당 추론 비용은 단 몇 백 달러에 불과했습니다.
광고
최근의 오픈AI(OpenAI) 해결책과 같은 (순수하게) 자연어 기반 접근 방식과 달리, 알파프루프 넥서스의 기반이 되는 언어 모델(이 경우 Gemini 3.1 Pro)은 전체 논리적 사슬을 스스로 감당할 필요가 없습니다.
광고
대신, 모델이 Lean이라는 형식 언어로 증명 단계를 생성하면 컴파일러가 각 단계를 확인합니다. 이때 발생한 오류 메시지는 다음 시도에 직접적으로 피드백으로 제공됩니다. 이러한 방식을 통해 LLM은 상징적 피드백에 기반을 두게 되며, 이는 논리적 추론에서 언어 모델의 잘 알려진 약점을 보완해 주는 안전망 역할을 합니다. 인간은 최종 결과를 확인하는 마지막 단계에만 개입합니다.
네 개의 에이전트, 하나의 놀라운 결과 이 시스템은 복잡성이 증가하는 네 가지 에이전트 변형으로 구성되어 있습니다. 가장 단순한 Agent (A)는 Gemini 3.1 Pro에서 루프를 돌며 실행되는 독립적인 하위 에이전트를 배치합니다. 즉, 언어 모델이 증명 단계를 생성하고, Lean 컴파일러가 이를 확인하며, 오류 메시지가 다음 시도에 피드백으로 들어가는 구조입니다.
광고
Agent (B)는 구글의 수학 올림피아드용 강화학습 기반 시스템인 알파프루프(AlphaProof)에 쿼리를 추가하여, 누락된 증명 부분을 채울 수 있도록 합니다. Agent (C)는 진화적(evolutionary) 구성 요소를 도입합니다. 알파이볼브(AlphaEvolve)에서 영감을 받은 하위 에이전트들은 공통된 증명 스케치(개요) 풀을 공유합니다. Gemini 3.0 Flash 기반의 평가 에이전트는 이 스케치들의 타당성과 참신함을 점수로 매긴 다음, Elo 시스템을 사용해 순위를 매깁니다.
모든 기능을 갖춘 Agent (D)는 이러한 모든 기능을 결합합니다. 에르되시 문제에는 이 Agent (D)가 사용되었습니다. 하지만 사후 분석 결과 놀라운 사실이 밝혀졌습니다. LLM과 컴파일러 피드백만 사용하는 가장 단순한 Agent (A) 역시 가장 어려운 문제에서는 비용이 더 들었지만, 해결된 9개의 에르되시 문제를 모두 증명할 수 있었던 것입니다.
광고
연구진은 단순한 에이전트의 성공을 두 가지 요인으로 돌립니다. 바로 기반이 되는 언어 모델의 빠른 발전과 "컴파일러 피드백이 LLM의 추론을 뒷받침해 주는 힘"입니다. 모든 기능을 갖춘 에이전트는 여전히 가장 까다로운 작업에서 우위를 점하고 있지만, LLM이 발전함에 따라 이러한 격차는 줄어들 수 있습니다.
연구진은 이것이 더 광범위한 추세를 가리킨다고 말하며, 이는 "LLM이 더 능력을 갖추게 되면서 전문적으로 훈련된 시스템에서 단순한 에이전트 루프로 지속적인 전환이 일어나고 있음"을 의미한다고 설명합니다.
광고
완전한 증명이 없어도 유용하다 이 시스템의 성공은 주로 조합론(combinatorics), 볼록 최적화, 정수론(number theory)과 같은 분야에 집중되어 있습니다. 이 분야들은 Lean의 수학 라이브러리인 Mathlib이 성숙해 있고, 문제들을 다루기 쉬운 하위 목표들로 세분화할 수 있기 때문입니다.
대부분의 에르되시 문제는 여전히 AI의 손이 닿지 않는 곳에 있었습니다. 연구진은 "수학자들이 완전히 새로운 개념을 구축해야만 풀 수 있는 문제들은 말할 것도 없고, 현재 시스템으로는 해결할 수 없다"고 덧붙였습니다. 그럼에도 불구하고, 연구진은 알파프루프 넥서스가 수학 연구를 지원하는 귀중한 도구가 될 수 있다고 봅니다.