메뉴
BL
The Decoder 49일 전

연구진, AI '세계 모델' 진짜 조건 규정

IMP
8/10
핵심 요약

국제 공동 연구진이 '세계 모델(World Model)'의 명확한 정의를 제시하고, 단방향성 텍스트-투-비디오(text-to-video) 모델은 이에 포함되지 않는다고 규정했습니다. 실제 환경을 인식하고 상호작용 및 장기 기억이 가능해야 한다는 이 기준에 따라 소라(Sora) 같은 모델들은 제외되었습니다. 연구진은 세계 모델 개발과 평가를 돕기 위해 5가지 핵심 모듈을 통합한 오픈소스 프레임워크 'OpenWorldLib'도 함께 공개했습니다.

번역된 본문

국제 공동 연구진이 오픈소스 프로젝트인 OpenWorldLib를 통해 파편화된 세계 모델 연구 생태계에 체계적인 질서를 도입하고자 나섰습니다. 이들이 제안한 명확한 기준에 따르면 소라(Sora)와 같은 텍스트-투-비디오 모델은 '세계 모델'에서 명시적으로 제외됩니다.

AI 연구 분야에서 '세계 모델(World Model)'이라는 용어는 끊임없이 등장하지만, 정작 무엇이 진정한 세계 모델로 인정받는지에 대해서는 이제까지 합의된 바가 없었습니다. 베이징대학교, 클링(Kling) 비디오 생성기로 유명한 콰이샤우(Kuaishou) 기술, 싱가포르 국립대학교, 칭화대학교 등의 연구진이 이 문제를 해결하기 위해 OpenWorldLib를 발표했습니다. 이들의 논문은 표준화된 정의를 제시할 뿐만 아니라, 다양한 세계 모델 과제를 하나로 묶는 통합 오픈소스 프레임워크를 제안합니다.

연구진은 세계 모델이 복잡한 세계의 작동 방식을 이해하고 예측하기 위해 반드시 '환경 인식', '상호작용', '장기 기억 능력'을 갖춰야 한다고 봅니다. 세계 모델은 실제 세계의 멀티모달 입력을 받아들여 이를 분석하고 주변 환경에 반응하는 능력으로 정의되며, 이는 최종 출력물의 형태와 무관하게 해당되는 필수 조건입니다.

왜 소라는 세계 모델로 인정받지 못하는가 이 논문의 가장 도발적인 주장은 텍스트-투-비디오 생성 분야에 대한 것입니다. 오픈AI(OpenAI)가 현재 서비스가 중단된 소라 비디오 모델을 발표했을 때, 많은 사람들이 이를 '세계 시뮬레이터'라고 불렀습니다. 구글 딥마인드(Google DeepMind)의 데미스 허사비스(Demis Hassabis) CEO 역시 구글의 비디오 모델 'Veo'를 세계 모델로 향하는 과정이라고 주장했습니다.

하지만 연구진은 얀 르쿤(Yann LeCun)의 견해와 같은 선상에서 이에 전적으로 반대합니다. 비디오 생성이 어느 정도 물리적 관계를 이해하는 듯 보일지 모르나, 실제 세계와의 핵심적인 '피드백 루프(feedback loop)'가 결여되어 있다는 것입니다. 텍스트로부터 단순히 비디오만 생성하는 모델은 환경을 인식하지 못하며 상호작용도 하지 않습니다. 따라서 논문은 텍스트-투-비디오 방식이 "세계 모델의 핵심 과제 밖에 있다"고 단언합니다. 연구진은 이외에도 코드 생성, 웹 검색, 아바타 비디오 생성 역시 세계 모델의 정의에서 제외했습니다. 예를 들어 아바타 비디오는 오락 목적에 초점이 맞춰져 있으며, 물리적 세계를 이해하는 것과는 거리가 멉니다.

수동적 생성이 아닌 '상호작용'이 필수 연구진은 단방향적인 미디어 생성 대신 다음 세 가지 핵심 과제 영역에 주목합니다. 첫째, '인터랙티브 비디오 생성(Interactive video generation)'에서 모델은 이전 프레임과 사용자 입력을 바탕으로 다음 프레임을 예측합니다. 텍스트-투-비디오와 달리 제어 명령이나 카메라 움직임과 같은 사용자의 행동에 실시간으로 반응합니다. 둘째, '멀티모달 추론(Multimodal reasoning)'은 이미지, 비디오, 오디오에서 공간적, 시간적, 인과적 관계를 파악하는 능력을 다룹니다. 즉, 사물이 어디에 있는지 또는 무슨 일이 왜 일어났는지 이해하는 것을 의미합니다. 셋째, '비전-언어-액션(Vision-language-action)'에서 모델은 시각적 입력과 음성 지침을 로봇 팔이나 자율주행 차량을 위한 구체적인 움직임 명령으로 변환합니다.

또한 연구진은 3D 재구성 및 시뮬레이터를 핵심 구성 요소로 봅니다. 이들은 물리적 법칙이 엄격하게 적용되고 테스트할 수 있는 환경을 제공합니다. 반면 단순한 비디오 예측은 물리적 일관성을 보장하지 못한 채 시각적으로 미래를 추측하는 데 그칩니다.

단일 파이프라인을 구성하는 5가지 모듈 OpenWorldLib 소프트웨어는 입력 처리(input processing), 합성(synthesis), 추론(reasoning), 3D 재구성(3D reconstruction), 메모리(memory)의 5가지 모듈을 통합하여 세계 모델의 개발과 평가를 지원합니다.

원문 보기
원문 보기 (영어)
Researchers define what counts as a world model and text-to-video generators do not Jonathan Kemper View the LinkedIn Profile of Jonathan Kemper Apr 12, 2026 Nano Banana Pro prompted by THE DECODER Key Points An international research team has proposed a new framework to define what constitutes a "world model" in AI, aiming to bring clarity to a term that has so far been open to interpretation. Under this definition, world models must be able to perceive their environment, interact with it, and retain memory, which explicitly excludes text-to-video models like Sora, since they lack real-world feedback loops. The team has also released OpenWorldLib, an open-source project that integrates five modules covering input processing, synthesis, reasoning, 3D reconstruction, and memory to support the development and evaluation of world models. Ask about this article… Search An international research team wants to bring order to the fragmented world model research landscape with OpenWorldLib. Text-to-video models like Sora are explicitly left out of their definition. The term " world model " comes up constantly in AI research , but nobody has agreed on what actually counts as one. A team from Peking University, Kuaishou Technology (the company behind the Kling video generator), the National University of Singapore, Tsinghua, and other institutions wants to fix that with OpenWorldLib. Their paper lays out both a standardized definition and a unified open-source framework that pulls various world model tasks together in one place. The way the researchers see it, a world model has to be grounded in perception, able to interact with its environment, and capable of long-term memory, all so it can understand and predict how a complex world behaves. A world model is defined by its ability to take in multimodal input from the real world and use it to analyze and respond to its surroundings, regardless of what it outputs. Ad Why Sora doesn't make the cut as a world model The paper's most provocative call concerns text-to-video generation. When OpenAI rolled out its now-discontinued Sora video model , plenty of people called it a "world simulator." Deepmind CEO Demis Hassabis made similar claims about Google's Veo video model , positioning it as a step toward world models. Ad DEC_D_Incontent-1 The authors flat-out disagree, landing on the same side as Yann LeCun : while video generation shows some grasp of physical relationships, it's missing the crucial feedback loop with the real world. A model that only generates videos from text doesn't perceive its environment and doesn't interact with it. Text-to-video therefore falls "outside the core tasks of world models," the paper states. The researchers also cut code generation, web search, and avatar video generation from the definition. Avatar videos, for example, are geared toward entertainment and have little to do with understanding the physical world. Ad Real-world models need interaction, not passive generation Rather than passive media generation, the researchers zero in on three task areas: In interactive video generation , a model predicts the next frame based on previous frames and user input. Unlike text-to-video, it reacts to actions like control commands or camera movements. Multimodal reasoning covers the ability to figure out spatial, temporal, and causal relationships from images, videos, and audio, like understanding where an object is or why something happened. In vision-language-action , the model converts visual input and voice instructions into specific movement commands for robotic arms or self-driving vehicles. The researchers also view 3D reconstruction and simulators as key building blocks. These provide a testable environment where physical rules can be strictly enforced. Plain video prediction, by comparison, only gives a visual guess at the future without guaranteeing physical consistency. Ad DEC_D_Incontent-2 Five modules make up a single pipeline The OpenWorldLib software project packages these capabilities in a modular setup. An operator module converts all kinds of inputs—text, images, sensor data—into a standardized format. The Synthesis module generates images, videos, audio, and control commands. The Reasoning module handles spatial, visual, and acoustic context. A representation module builds 3D reconstructions and simulation environments. And the memory module stores interaction sequences so the system stays consistent across multiple steps. Ad A top-level pipeline orchestrates all the modules and exposes a standardized interface. That way, researchers can compare different models and methods in the same framework instead of spinning up custom infrastructure every time. Hunyuan-WorldPlay and Cosmos top early benchmarks Running evaluations on Nvidia's A800 and H200 GPUs, the researchers compared existing models inside their framework. Hunyuan-WorldPlay scored the highest visual quality in interactive video generation for navigation scenes. Nvidia's Cosmos came out on top in complex interactive scenarios where the model had to handle a wide range of user inputs. Older approaches like Matrix-Game-2 were faster but showed noticeable color drift in longer sequences. Models like VGGT and InfiniteVGGT showed clear weaknesses in 3D scene reconstruction. Significant camera movement led to geometric inconsistencies and blurry textures. Even so, the researchers consider 3D generation essential to the future of world models. Today's chip designs may be holding world models back The authors also take aim at current hardware , arguing that today's chips are fundamentally mismatched with what world models need. Modern processors are built to handle individual tokens, so even when a model needs to predict entire video frames, the data still gets crunched token by token internally. In the researchers' view, that's wildly inefficient for the kind of data-heavy perception a real-world model demands. They say new chip architectures are needed, and possibly a move away from the Transformer, which currently powers nearly every large AI model. As a practical stopgap, the authors point to current vision-language models like Bagel, which handles both multimodal reasoning and image generation on the Qwen architecture. In their view, this shows that language models pre-trained on internet data can in principle deliver all the necessary capabilities—even if building a complete world model is still a long way off. OpenWorldLib is available as an open-source project on GitHub . AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: Arxiv | GitHub