아고라-1: 다중 에이전트 월드 모델
여러 명의 인간 및 AI 참가자가 동일한 시뮬레이션 환경에서 실시간으로 상호작용할 수 있는 최초의 다중 에이전트 월드 모델인 '아고라-1(Agora-1)'이 공개되었습니다. 이 모델은 시뮬레이션 역학과 렌더링을 분리하는 독창적인 아키텍처를 통해 플레이어 간의 일관된 상태를 유지하며 실시간 멀티플레이어 게임 환경을 구현합니다. 이는 게임, 로봇 공학, 국방 등 다양한 분야에서 완전히 새로운 공유 경험을 가능하게 하는 중요한 기술적 진전입니다.
아고라-1: 다중 에이전트 월드 모델 아고라-1은 인간 또는 AI와 같은 여러 참가자가 동일한 월드 시뮬레이션 내에서 실시간으로 공유하고 상호작용할 수 있게 합니다. Oliver Cameron, 2026년 5월 18일
오늘 저희는 게임, 로봇 공학, 국방, 교육, 파운데이션 모델 등 다양한 분야에서 월드 모델이 어떻게 새롭고 강력한 공유 경험을 가능하게 할 수 있는지 탐구하는 다중 에이전트 월드 모델 시리즈의 첫 번째 작품인 아고라-1(Agora-1)을 발표하게 되어 매우 기쁩니다. 월드 모델은 임의의 환경을 고화질로 시뮬레이션하는 강력한 도구이지만, 지금까지는 시뮬레이션된 세계 내에서 단일 참가자만 활동할 수 있다는 한계가 있었습니다. 아고라-1을 통해 저희는 다중 에이전트 월드 시뮬레이션을 도입합니다.
다중 에이전트 월드 모델을 탐구하기 위해, 저희는 Odyssey 팀의 많은 멤버들이 어린 시절 즐겼던 게임인 골든아이(GoldenEye)에 주목했습니다. 오랫동안 게임은 AI 연구를 위한 유용한 환경으로 활용되어 왔으며, Atari, 마인크래프트, 스타크래프트를 통해 시스템이 학습되어 왔고 이제 골든아이까지 그 대열에 합류했습니다. 아고라-1은 최대 4명의 플레이어가 동일하게 생성된 세계에서 실시간으로 상호작용할 수 있도록 합니다. 플레이어들은 공유된 데스매치 시뮬레이션에 매칭되며, 모든 참가자가 동시에 동일한 생성된 세계와 상호작용합니다. 여러분이 경험하는 모든 것은 아고라-1에 의해 실시간으로 생성됩니다. 이 모델은 플레이어의 행동을 바탕으로 플레이어 간의 상호작용을 시뮬레이션하고, 참가자들 사이에서 공유되는 월드 상태를 유지하며, 생성된 픽셀을 모든 플레이어에게 동시에 스트리밍합니다. 결과적으로 아고라-1은 학습된 게임 엔진 역할을 합니다.
[아고라-1 체험하기: 아고라-1 기반의 공유 데스매치 시뮬레이션]
단일 에이전트에서 다중 에이전트 월드 모델로 전통적인 월드 모델은 단일 모델 내에서 시뮬레이션 역학과 렌더링을 결합합니다. 지금까지 Multiverse, Solaris, MultiGen 등을 포함하여 월드 모델에서 다중 에이전트 상호작용을 탐구하는 몇 가지 접근 방식이 있었습니다. Multiverse는 에이전트 상태를 단일 '분할 화면' 표현으로 연결하여, 여러 플레이어를 사실상 하나의 월드 상태로 취급합니다. Solaris는 대신 단일 자기회귀 디퓨전 트랜스포머(Autoregressive Diffusion Transformer)의 시퀀스 차원을 따라 각 참가자를 연결하여 더 강력한 공유 시뮬레이션을 생성합니다. 하지만 이러한 접근 방식은 모델 컨텍스트가 증가함에 따라 플레이어 수에 선형적으로 확장되지 않습니다. 또한 Multiverse와 Solaris 모두 플레이어들이 서로의 시야에서 벗어났을 때 일관성을 유지하는 데 어려움을 겪습니다.
아고라-1은 시뮬레이션과 렌더링을 분리하는 다른 방향을 탐구합니다. MultiGen과 유사하게 아고라-1은 참가자들 사이에 명시적인 공유 월드 상태를 유지합니다. 그러나 저희는 해당 공유 상태에서 시뮬레이션 역학과 렌더링을 모델링하는 데 있어 다른 접근 방식을 채택합니다. 이러한 기능을 분리함으로써 아고라-1은 여러 독립적인 시점에서 동일한 시뮬레이션 세계의 일관된 뷰를 생성할 수 있으며, 이를 통해 멀티플레이어 게임, 로봇 공학 및 다중 뷰 시뮬레이션과 같은 애플리케이션이 가능해집니다.
[아고라-1의 아키텍처]
공유 월드 상태 학습 아고라-1은 두 가지 뚜렷한 기능을 학습합니다. 첫째, 플레이어의 상호작용에 반응하여 월드 상태가 시간이 지남에 따라 어떻게 진화하는지 학습합니다. 이를 위해 아고라-1의 경우 골든아이와 같은 하나 이상의 게임 내부 상태에서 모델을 직접 학습시킵니다. 이 모델은 근본적인 게임플레이 역학과 플레이어 행동에 의해 상태 전환이 어떻게 발생하는지 학습합니다. 둘째, 아고라-1은 해당 공유 상태를 시각적으로 렌더링하는 방법을 학습합니다. 이는 프롬프트, 이미지 또는 기타 전통적인 조건부 신호가 아닌 공유 게임 상태에 직접적으로 조건화된(conditioned) DiT(Diffusion Transformer) 기반 월드 모델을 사용하여 수행됩니다. 이러한 분리는 현대 게임 엔진의 구조와 느슨하게 유사하다고 생각할 수 있습니다. 차이점은 두 구성 요소 모두 완전히 학습된 시스템이라는 것입니다. 하드코딩된 게임플레이 로직이나 렌더링 규칙에 의존하지 않고 데이터에서 직접 학습합니다. 두 모델 모두 독특한 연구 과제를 제기합니다. 이산적인 게임 상태는 대부분의 DiT 기반 월드 모델이 작동하는 연속적인 시각적 도메인과 구조적으로 다르며, 게임플레이를 위해 특별히 설계된 아키텍처가 필요합니다.