연구진, AI '세계 모델' 진짜 조건 규정
국제 공동 연구진이 '세계 모델(World Model)'의 명확한 정의를 제시하고, 단방향성 텍스트-투-비디오(text-to-video) 모델은 이에 포함되지 않는다고 규정했습니다. 실제 환경을 인식하고 상호작용 및 장기 기억이 가능해야 한다는 이 기준에 따라 소라(Sora) 같은 모델들은 제외되었습니다. 연구진은 세계 모델 개발과 평가를 돕기 위해 5가지 핵심 모듈을 통합한 오픈소스 프레임워크 'OpenWorldLib'도 함께 공개했습니다.
국제 공동 연구진이 오픈소스 프로젝트인 OpenWorldLib를 통해 파편화된 세계 모델 연구 생태계에 체계적인 질서를 도입하고자 나섰습니다. 이들이 제안한 명확한 기준에 따르면 소라(Sora)와 같은 텍스트-투-비디오 모델은 '세계 모델'에서 명시적으로 제외됩니다.
AI 연구 분야에서 '세계 모델(World Model)'이라는 용어는 끊임없이 등장하지만, 정작 무엇이 진정한 세계 모델로 인정받는지에 대해서는 이제까지 합의된 바가 없었습니다. 베이징대학교, 클링(Kling) 비디오 생성기로 유명한 콰이샤우(Kuaishou) 기술, 싱가포르 국립대학교, 칭화대학교 등의 연구진이 이 문제를 해결하기 위해 OpenWorldLib를 발표했습니다. 이들의 논문은 표준화된 정의를 제시할 뿐만 아니라, 다양한 세계 모델 과제를 하나로 묶는 통합 오픈소스 프레임워크를 제안합니다.
연구진은 세계 모델이 복잡한 세계의 작동 방식을 이해하고 예측하기 위해 반드시 '환경 인식', '상호작용', '장기 기억 능력'을 갖춰야 한다고 봅니다. 세계 모델은 실제 세계의 멀티모달 입력을 받아들여 이를 분석하고 주변 환경에 반응하는 능력으로 정의되며, 이는 최종 출력물의 형태와 무관하게 해당되는 필수 조건입니다.
왜 소라는 세계 모델로 인정받지 못하는가 이 논문의 가장 도발적인 주장은 텍스트-투-비디오 생성 분야에 대한 것입니다. 오픈AI(OpenAI)가 현재 서비스가 중단된 소라 비디오 모델을 발표했을 때, 많은 사람들이 이를 '세계 시뮬레이터'라고 불렀습니다. 구글 딥마인드(Google DeepMind)의 데미스 허사비스(Demis Hassabis) CEO 역시 구글의 비디오 모델 'Veo'를 세계 모델로 향하는 과정이라고 주장했습니다.
하지만 연구진은 얀 르쿤(Yann LeCun)의 견해와 같은 선상에서 이에 전적으로 반대합니다. 비디오 생성이 어느 정도 물리적 관계를 이해하는 듯 보일지 모르나, 실제 세계와의 핵심적인 '피드백 루프(feedback loop)'가 결여되어 있다는 것입니다. 텍스트로부터 단순히 비디오만 생성하는 모델은 환경을 인식하지 못하며 상호작용도 하지 않습니다. 따라서 논문은 텍스트-투-비디오 방식이 "세계 모델의 핵심 과제 밖에 있다"고 단언합니다. 연구진은 이외에도 코드 생성, 웹 검색, 아바타 비디오 생성 역시 세계 모델의 정의에서 제외했습니다. 예를 들어 아바타 비디오는 오락 목적에 초점이 맞춰져 있으며, 물리적 세계를 이해하는 것과는 거리가 멉니다.
수동적 생성이 아닌 '상호작용'이 필수 연구진은 단방향적인 미디어 생성 대신 다음 세 가지 핵심 과제 영역에 주목합니다. 첫째, '인터랙티브 비디오 생성(Interactive video generation)'에서 모델은 이전 프레임과 사용자 입력을 바탕으로 다음 프레임을 예측합니다. 텍스트-투-비디오와 달리 제어 명령이나 카메라 움직임과 같은 사용자의 행동에 실시간으로 반응합니다. 둘째, '멀티모달 추론(Multimodal reasoning)'은 이미지, 비디오, 오디오에서 공간적, 시간적, 인과적 관계를 파악하는 능력을 다룹니다. 즉, 사물이 어디에 있는지 또는 무슨 일이 왜 일어났는지 이해하는 것을 의미합니다. 셋째, '비전-언어-액션(Vision-language-action)'에서 모델은 시각적 입력과 음성 지침을 로봇 팔이나 자율주행 차량을 위한 구체적인 움직임 명령으로 변환합니다.
또한 연구진은 3D 재구성 및 시뮬레이터를 핵심 구성 요소로 봅니다. 이들은 물리적 법칙이 엄격하게 적용되고 테스트할 수 있는 환경을 제공합니다. 반면 단순한 비디오 예측은 물리적 일관성을 보장하지 못한 채 시각적으로 미래를 추측하는 데 그칩니다.
단일 파이프라인을 구성하는 5가지 모듈 OpenWorldLib 소프트웨어는 입력 처리(input processing), 합성(synthesis), 추론(reasoning), 3D 재구성(3D reconstruction), 메모리(memory)의 5가지 모듈을 통합하여 세계 모델의 개발과 평가를 지원합니다.