메뉴
BL
r/singularity 14일 전

AI, 폴리마켓 미래 예측에서 인간 압도하다

IMP
8/10
핵심 요약

막스 플랑크 연구소가 과거 웹 데이터만으로 실제 미래를 예측하는 'FutureSim' 환경을 발표했습니다. 실험 결과, GPT 5.5 모델이 슈퍼볼이나 대선 시장에서 실제 자금이 오가는 인간 예측 시장을 압도하는 0.90의 높은 브리어 점수(Brier skill score)를 기록했습니다. 일부 분야에서는 영국 선거 등 예측에 실패했지만, AI의 미래 예측 성능이 빠르게 발전하고 있어 2027년경 신뢰할 수 있는 예측 AI의 등장 가능성을 시사합니다.

번역된 본문

막스 플랑크 연구소(Max Planck Institute)의 연구진이 최근 'FutureSim'이라는 환경을 공개했습니다. 이는 AI 에이전트에게 특정 시점의 과거 웹 데이터를 제공한 뒤, 실제 현실의 미래 사건을 예측하도록 과제를 부여하는 시스템입니다.

이들의 실험 환경 중 폴리마켓(Polymarket)과 겹치는 일부 질문(예: 거래량 7억 400만 달러 규모의 슈퍼볼 LX 시장)에서 GPT 5.5(Codex 환경에서 구동)는 실제로 인간의 예측을 집약한 시장 평균을 앞질렀으며, 0.90에 달하는 거의 완벽한 수준의 브리어 기술 점수(Brier skill score)를 기록했습니다. 포르투갈 대통령 결선 투표 시장에서도 같은 결과가 나왔습니다. 실시간 웹 접속 권한 없이 단지 오래된 뉴스 데이터만을 기반으로 학습한 에이전트가 수억 달러의 실제 자금이 오가는 거대한 시장을 이겨낸 것입니다.

하지만 모든 면에서 완벽한 것은 아닙니다. 동일한 모델조차도 영국 선거나 그래미(Grammys) 시장에서는 완전히 처참하게 패배했습니다.

AI 예측 분야의 발전은 매우 빠르게 이루어지고 있는 것으로 보입니다. 우리는 2027년이면 믿을 수 있는 미래 예측 시스템을 갖추게 될 수 있을까요?

원문 보기
원문 보기 (영어)
Researchers from the Max Planck Institute, recently released FutureSim, an environment in which agents are replayed a temporal slice of the web and are tasked with predicting real-world future events. On some questions in their environment that overlap with Polymarket, like the Super Bowl LX market ($704M in trading volume) GPT 5.5 (running in Codex) actually ran ahead of the human-aggregate market and finished with a near-perfect Brier skill score of 0.90. Same story on the Portugal presidential runoff. An agent, with no live web access, just replaying old news, leading a market with hundreds of millions in real money on the line. But it’s not all perfect, the same model gets smoked on UK elections and the Grammys market. Progress on the AI forecasting front seems rapid, will we have reliable future predictors by 2027?