AI 월드 모델, N64 골든아이를 4인 동시 플레이로 구현하다
AI 연구소 Odyssey가 최대 4명의 플레이어가 동시에 상호작용할 수 있는 다중 에이전트 월드 모델 'Agora-1'을 공개했습니다. 이 모덜은 시뮬레이션과 렌더링을 분리하여 작동하며, 실시간으로 생성되는 환경 속에서 플레이어들이 일관된 게임 상태를 유지할 수 있게 합니다. 이 기술은 향후 협력형 로봇 공학 및 AI 에이전트 훈련 환경 구축에 혁신적인 기여를 할 것으로 평가받습니다.
AI 연구소 Odyssey가 최대 4명의 플레이어가 AI로 생성된 게임 세계에서 동시에 이동할 수 있는 월드 모델(world model), Agora-1을 발표했습니다. 테스트 환경으로 선택된 것은 닌텐도 64의 고전 게임인 '골든아이(GoldenEye)'입니다.
Agora-1은 최초의 다중 에이전트 월드 시뮬레이션 중 하나입니다. 기존의 월드 모델은 대부분 단일 플레이어에만 국한되었지만, Agora는 최대 4명의 플레이어를 하나의 공유된 데스매치 시뮬레이션에 매치시켜 모든 플레이어가 동일한 생성된 세계와 상호작용하게 만듭니다. 플레이어들이 보는 모든 것은 Agora-1에 의해 실시간으로 생성됩니다.
이 모델은 학습된 게임 엔진처럼 작동합니다. OpenAI의 Sora나 Google의 Veo 3와 같은 비디오 생성기가 고정된 클립만을 출력하는 것과는 달리, Agora-1은 게임 상태를 지속적으로 시뮬레이션하고 각 플레이어의 개별 시점을 렌더링합니다. Odyssey는 이 과정을 시뮬레이션과 렌더링의 두 부분으로 분리했습니다. 한 모델은 게임의 내부 상태로부터 플레이어의 행동에 따라 세계가 어떻게 변화하는지 학습합니다. 그리고 두 번째 확산 기반(diffusion-based) 모델은 공유된 상태를 시각적 이미지로 변환하는 방법을 학습합니다. 상태가 명시적으로 관리되기 때문에, Agora-1은 원본 게임의 메커니크를 잃지 않고도 새로운 레벨을 생성할 수 있습니다.
Odyssey에 따르면, Multiverse나 Solaris와 같은 이전의 다중 에이전트 접근 방식은 주로 플레이어들이 서로의 시야에서 벗어났을 때 문제가 발생했습니다. 반면 Agora-1은 여러 각도에서 동일한 세계의 일관된 뷰를 제공하는 것을 목표로 합니다.
오디오 및 텍스트 상호작용을 추가한 Starchild-1 Odyssey는 Starchild-1이라는 자매 모델도 소개했습니다. 이 스타트업은 이를 동기화된 시각 및 소리를 생성하는 동시에 지속적인 텍스트 입력에 반응하는 대화형 오디오-비디오 월드 모델이라고 설명합니다. 최신 하드웨어에서 초당 최대 24프레임으로 실행됩니다. Agora-1과 달리 Starchild-1은 단일 사용자에게 초점을 맞추지만 음성과 주변 오디오를 추가한다는 점이 다릅니다. 아직 공개적인 데모는 없으며 비디오 샘플과 기술 논문만 제공됩니다.
Google의 Genie 3는 현재 월드 모델 중 가장 잘 알려진 경쟁 제품입니다. 시각적으로 더 인상적인 환경을 생성하지만 단일 사용자만 지원합니다. 반면 Veo 3와 Sora 2는 재생 중 제어가 불가능한 짧고 독립적인 비디오를 생성합니다.
Agora-1은 Odyssey 웹사이트에서 초기 연구 프리뷰로 플레이 가능합니다. CEO Oliver Cameron과 CTO Jeff Hawke가 이끄는 팀은 이 기술이 여러 대의 로봇이 행동과 공간에 대해 공동으로 추론해야 하는 협력형 로봇 공학(Collaborative robotics) 및 완전히 시뮬레이션된 환경에서 AI 에이전트를 훈련시키는 데 활용될 수 있다고 보고 있습니다.