AI 로봇, 움직이기 전 결과 시뮬레이션 능력 장착
최근 발표된 리뷰 논문은 일상적인 비디오 데이터만으로 학습해 로봇이 행동의 결과를 미리 시뮬레이션할 수 있게 하는 '월드 액션 모델(WAMs)' 체계를 소개합니다. 기존 모델들이 단순히 카메라 이미지를 행동으로 매핑하는 데 그쳤다면, 이 모델들은 물리적 환경 변화를 예측하여 미지의 환경에서도 뛰어난 일반화 성능을 보여줍니다. 연구진은 백여 편의 관련 논문을 분석해 결과 예측과 행동 생성을 순차적 또는 동시에 수행하는 두 가지 핵심 아키텍처로 분류했습니다.
글쓴이: Jonathan Kemper | THE DECODER 프롬프트 | 2026년 5월 17일
주요 요점: 최근 발표된 리뷰 논문은 로봇 공학을 위한 모델 클래스인 '월드 액션 모델(World Action Models, WAMs)'에 대한 체계적인 프레임워크를 소개합니다. 이를 통해 AI 시스템은 라벨링되지 않은 일상 영상만으로도 학습할 수 있게 됩니다. 기존 접근 방식과 달리 WAMs는 주어진 카메라 이미지에 어떤 행동이 뒤따라야 하는지만 학습하는 것이 아닙니다. 그 대신 해당 행동의 결과로 환경이 어떻게 변할지 시뮬레이션하여 물리적 세계에 대한 내부 모델을 효과적으로 구축합니다. 이 리뷰에서 분석된 약 100편의 논문들은 크게 두 가지 주요 아키텍처 범주로 나뉩니다. 한 연구 흐름은 먼저 예측된 미래 비디오를 생성한 다음 그로부터 제어 명령을 도출하는 방식이며, 다른 하나는 시각적 입력과 행동을 동시에 병렬로 처리하는 방식입니다.
오늘날 로봇 AI에는 근본적인 약점이 있습니다. 모델이 카메라 이미지를 단순히 움직임에 직접 매핑하도록 학습한다는 것입니다. 즉, 자신의 행동 결과로 실제 세계가 어떻게 변하는지 이해하지 못합니다. 중산대학교(Fudan University), 상하이 혁신 연구소(Shanghai Innovation Institute), 싱가포르 국립대학교(National University of Singapore)의 새로운 서베이 논문은 이러한 간극을 메우기 위해 설계된 모델 클래스를 체계적으로 분류한 최초의 연구입니다. 바로 '월드 액션 모델(World Action Models)'입니다.
자신의 가까운 미래를 시뮬레이션하는 로봇 기존의 비전-언어-액션(Vision-Language-Action) 모델은 대부분 관찰을 일치하는 행동으로 직접 매핑하는 방식을 학습합니다. 월드 액션 모델은 여기서 한 걸음 더 나아갑니다. 환경이 어떻게 변할지 모델링한 다음, 그 예측을 행동 생성과 결합합니다. 저자들은 이의 실질적 이점이 크다고 말합니다. 움직임을 실행하기 전에 그 결과를 시뮬레이션하는 모델은 낯선 물건이나 환경에 훨씬 더 잘 일반화됩니다. 더 중요한 것은 로봇의 행동이 전혀 라벨링되지 않은 영상, 즉 일상적인 1인칭 비디오와 같은 데이터로도 학습할 수 있다는 점입니다. 이런 종류의 데이터는 기존 로봇 AI에서는 거의 쓸모가 없었습니다. 순수 비디오 생성기는 그럴듯한 미래 프레임을 생성할 수는 있지만, 제어 신호와 연결되지 않습니다. 베이징대학교 연구팀은 최근 세계 모델(World Models)의 통일된 정의를 내리면서 정확히 이 점을 구분했습니다. 월드 액션 모델은 이 두 가지 조건을 동시에 충족합니다.
두 가지 핵심 아키텍처 연구진은 약 100편의 논문을 두 가지 아키텍처 흐름으로 분류했습니다. 첫 번째는 '캐스케이디드 WAMs(Cascaded WAMs)'로, 두 단계로 작동합니다. 먼저 세계 모델이 다음 장면의 모습을 나타내는 이미지나 비디오를 생성합니다. 그런 다음 두 번째 모듈이 해당 출력에서 알맞은 제어 명령을 끌어냅니다. UniPi와 같은 초기 연구는 전체 비디오를 생성하고 학습된 역 모델(inverse model)을 통해 움직임을 도출합니다. AVDC나 3DFlowAction과 같은 다른 접근 방식은 로봇의 궤적을 기하학적으로 계산할 수 있는 모션 필드를 사용합니다. VPP 또는 LAPA와 같은 나머지 방식들은 가시적인 이미지를 완전히 건너뛰고 압축된 추상적 표현으로 미래를 예측합니다. 이는 모든 단일 픽셀을 렌더링하는 데 필요한 컴퓨팅 비용을 아껴줍니다. 두 번째 흐름인 '조인트 WAMs(Joint WAMs)'는 두 가지 작업을 단일 모델에서 결합합니다. GR-1, GR-2 또는 WorldVLA와 같은 연구는 이미지와 행동을 통합된 토큰 시퀀스로 취급합니다. PAD, UWM 또는 DreamZero와 같은 디퓨전(Diffusion) 기반 변형은 미래 프레임과 움직임을 병렬로 생성합니다. 엔비디아(Nvidia)의 Cosmos Policy는 동일한 아키텍처를 컨트롤러, 시뮬레이터 또는 평가 모델로 사용할 수 있습니다. 엔비디아는 제어 명령을 받아 시뮬레이션된 시각적 미래를 생성하는 세계 모델인 DreamDojo와 유사한 이중 역할을 추구하고 있습니다. 또한 이 서베이는 세계 모델을 대체재가 아닌 공급자로 사용하는 π0.7에 대해서도 논의합니다. 이 모델은 상상한 미래 프레임을 사전 학습된 로봇 AI의 컨텍스트에 제공하고, 그 후 로봇 AI가 움직임을 생성하는 방식입니다.
진짜 병목 현상은 '데이터' 논문의 한 챕터 전체는 학습 데이터가 어디서 오는지 파헤칩니다. 네 가지 소스가 이 분야를 형성합니다. 원격 조종 로봇의 텔레오퍼레이션(Teleoperation) 데이터는 정확하지만 비용이 많이 듭니다.