메뉴
BL
The Decoder 15일 전

화려한 영상 AI, 세상 이해는 아직 한참 멀었다

IMP
8/10
핵심 요약

최신 AI 영상 생성 모델들이 시각적인 퀄리티에서는 비약적인 발전을 이뤘지만, 여전히 물리 법칙이나 논리적 인과관계에 대한 이해력이 크게 떨어진다는 벤치마크가 나왔습니다. 특히 오픈소스 모델들은 상용 모델에 비해 프롬프트 의존도가 높고 복잡한 논리적 추론 과제에서 대부분 실패하는 것으로 나타났습니다.

번역된 본문

최신 벤치마크, AI 영상 생성기는 여전히 세상을 이해하지 못한다는 점을 확인하다.

Sora 2, Seedance 2.0, Veo 3.1과 같은 최신 영상 생성 모델들은 점점 더 인상적인 영상을 만들어내고 있습니다. 하지만 칭화대학교의 새로운 벤치마크는 계속해서 제기되어 온 문제를 다시 한번 확인시켜 줍니다. 시각적 품질과 실제 세상에 대한 이해는 전혀 다른 문제라는 것입니다.

WorldReasonBench는 화질에 집중하는 대신, 모델이 주어진 시작 장면을 물리적, 사회적, 논리적, 정보적 측면에서 타당한 방식으로 이어나갈 수 있는지 테스트합니다. 기본적인 테스트 과제를 생각해 봅시다. 생성기에게 가지에 걸려 있는 사과 이미지를 주고, 사과를 떨어뜨리라고 지시합니다. 결과물은 훌륭해 보일 수 있습니다. 부드러운 움직임, 사실적인 질감, 멋진 조명. 하지만 여전히 물리 법칙을 근본적으로 틀리게 적용할 수 있습니다. 사과가 위로 날아가거나, 풍선처럼 터지거나, 곡선이 아닌 직선으로 떨어질 수도 있습니다. 기존의 표준 품질 평가 지표들은 여전히 그 영상의 사실성에 높은 점수를 줄 것입니다. 바로 이 간극을 WorldReasonBench가 잡아내고자 설계된 것입니다.

WorldReasonBench는 4가지 영역에 걸쳐 약 400개의 테스트 과제를 포함하고 있습니다. 세계 지식(물리, 날씨, 문화적 규범), 인간 중심 장면(사물 다루기, 사회적 상호작용), 논리적 추론(수학, 기하학, 과학 실험), 정보 기반 추론(데이터 및 도표 읽기)이 그것입니다. 점수 산출은 두 단계로 이루어집니다. 첫 번째로, 과정 인식(Process-aware) 방법은 구조화된 질문을 사용해 영상이 타당한 방식으로 올바른 최종 상태에 도달했는지 확인합니다. 그런 다음 두 번째 단계에서 추론의 질, 시간적 일관성, 시각적 미학을 평가합니다.

연구팀은 벤치마크와 함께 훈련된 평가자들이 순위를 매긴 약 6,000개의 영상 비교 데이터 세트인 WorldRewardBench도 공개했습니다.

상용 모델이 압도적인 차이로 앞서지만, 논리적 추론은 모두의 걸림돌이다.

연구진은 5개의 상용 시스템(Sora 2, Kling, Wan 2.6, Seedance 2.0, Veo 3.1-Fast)과 6개의 오픈소스 모델(LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, LongCat-Video)을 테스트했습니다. 상용 생성기는 핵심 추론 지표에서 오픈소스 모델이 기록한 점수의 약 두 배를 기록했으며, 두 그룹 간에는 통계적인 점수 겹침이 전혀 없었습니다.

바이트댄스(ByteDance)의 Seedance 2.0이 1위를 차지했으며, 10번의 통계적 재실행 중 거의 9번에서 1위를 차지했습니다. Veo 3.1-Fast는 세계 지식 분야에서 가장 좋은 성적을 냈고, Sora 2는 인간 중심 장면에서 선두를 달렸습니다. Seedance 2.0은 인간 평가 지표에서도 Veo 3.1-Fast, Kling, Wan 2.6을 제쳤습니다.

순위보다 더 중요한 것은 모든 모델의 공통된 약점입니다. 바로 '논리적 추론'이 테스트된 모든 모델에게 가장 어려운 카테고리라는 점입니다. 최고 수준의 상용 시스템조차도 이 분야에서는 전체 평균 점수보다 훨씬 낮은 점수를 기록했으며, 대부분의 오픈소스 모델은 이 추론 과제에서 거의 완전히 실패했습니다. 정보 기반 추론은 두 번째로 어려운 분야였으며, 특히 작업에 물리적으로 타당한 상태 변화나 텍스트 및 숫자의 정확한 보존이 요구될 때 두드러졌습니다.

이 연구는 또한 올바른 답변 중 정적인 스냅샷이 아닌 동적이고 과정 기반 단계에서 나온 비율을 추적하는 새로운 지표를 도입했습니다. 상용 모델은 이 지표에서 훨씬 높은 점수를 기록했는데, 이는 오픈소스 모델이 정말로 부족한 부분이 '겉보기'가 아니라 '원인과 결과의 이해'에 있음을 시사합니다.

모델에 단계별로 일어나야 할 일을 구체적으로 명시한 더 자세한 프롬프트를 제공하면, 오픈소스 생성기의 성능 향상이 가장 컸습니다. 이들은 단순히 상용 경쟁 모델보다 프롬프트의 질에 더 많이 의존합니다. 이는 상용 모델의 더 강력한 추론 능력이 가져온 부작용일 수 있습니다.

자동화된 평가 점수가 인간의 판단과 일치하다.

연구진은 자신들의 평가 지표를 검증하기 위해, 인간이 영상을 비교하고 순위를 매긴 결과와 비교했습니다. 핵심 평가 지표는 인간의 판단과 매우 밀접하게 연관되어 있었으며, 영상을 한 쌍으로 비교하는 기존의 AI 평가 모델(AI Judge)보다 확실히 우수한 성능을 보였습니다.

이러한 결론은 점점 더 늘어나는 증거들과 일치합니다. 해상도, 영상 길이, 제어 가능성 측면에서는 확실한 발전이 있었음에도 불구하고, 픽셀 생성기에서 신뢰할 수 있는 세계 모델(World Model)로 도약하는 일은 아직 일어나지 않았습니다.

원문 보기
원문 보기 (영어)
New benchmark confirms AI video generators look stunning but still can't reason about the world Jonathan Kemper View the LinkedIn Profile of Jonathan Kemper May 16, 2026 Nano Banana Pro prompted by THE DECODER Modern video generators like Sora 2, Seedance 2.0, and Veo 3.1 produce increasingly impressive clips. But a new benchmark from Tsinghua University confirms what keeps coming up: visual quality and actual world understanding are two different things. Instead of focusing on image quality, WorldReasonBench tests whether a model can take a starting scene and continue it in a way that makes sense: physically, socially, logically, and informationally. Consider a basic test case: give a generator an image of an apple on a branch and tell it to drop the apple. The result might look great—smooth motion, realistic textures, nice lighting—and still get the physics fundamentally wrong. The apple might fly upward, pop like a balloon, or fall in a straight line instead of curving. Standard quality metrics would still reward that video for its realism. That's the gap WorldReasonBench is designed to catch. WorldReasonBench includes about 400 test cases across four areas: world knowledge (physics, weather, cultural norms), human-centered scenes (object handling, social interaction), logical reasoning (math, geometry, science experiments), and information-based reasoning (reading data and diagrams). Scoring works in two stages. First, a process-aware method uses structured questions to check whether the video reaches the right end state in a plausible way. Then a second pass rates reasoning quality, temporal consistency, and visual aesthetics. Alongside the benchmark, the team also released WorldRewardBench, a dataset of about 6,000 video comparisons ranked by trained annotators. Commercial models lead by a wide margin, but logic trips up everyone The researchers tested five commercial systems (Sora 2, Kling, Wan 2.6, Seedance 2.0, Veo 3.1-Fast) and six open-source models (LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, LongCat-Video). Commercial generators scored roughly double what open-source models managed on the core reasoning metric, with no statistical overlap between the two groups. ByteDance's Seedance 2.0 came out on top, finishing first in nearly nine out of ten statistical re-runs. Veo 3.1-Fast did best on world knowledge, Sora 2 led on human-centered scenes. Seedance 2.0 also beat Veo 3.1-Fast, Kling, and Wan 2.6 in human ratings. More important than the rankings is a shared weakness: logical reasoning is the hardest category for every model tested. Even the best commercial systems drop well below their overall averages here, and most open-source models fail it almost entirely. Information-based reasoning is the second-toughest area, particularly when tasks require physically grounded transitions or exact preservation of text and numbers. The study also introduces a metric that tracks how many correct answers come from dynamic, process-based phases rather than static snapshots. Commercial models score much higher here, which points to where open-source models really fall short: not in how things look, but in understanding cause and effect. When models get more detailed prompts that spell out what should happen step by step, open-source generators improve the most. They're simply more dependent on prompt quality than their commercial rivals, which may itself be a side effect of the commercial models' stronger reasoning ability. Automated scoring lines up with human judgment To validate their approach, the team compared their metrics against rankings from human video comparisons. The core metric tracks closely with human judgment and clearly outperforms traditional AI judges that compare videos in pairs. The conclusion fits a growing body of evidence: despite real progress in resolution, length, and controllability, the jump from pixel generator to reliable world model hasn't happened. Getting there will likely depend less on visual polish and more on a better grasp of causal mechanisms and the ability to keep information consistent over time. The benchmark, data, and code are available on GitHub . An international team of researchers recently reached a similar conclusion : Sora 2 and Veo 3.1 fall well short of human performance on reasoning tasks. Whether video generators even qualify as "world models" remains a contested question in AI research. Meta's Yann LeCun considers systems like Sora a dead end , while DeepMind CEO Demis Hassabis sees Google's Veo as a step toward a world model . OpenAI shut down Sora as a commercial video generator but kept the team intact to focus on world model research . A proposed definition called OpenWorldLib explicitly rules out pure text-to-video models from the category. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now --> Read on for the full picture. Subscribe for hype-free coverage. Access to all THE DECODER articles. Read without distractions – no Google ads. Access to comments and community discussions. Weekly AI newsletter. 6 times a year: “AI Radar” – deep dives on key AI topics. Up to 25 % off on KI Pro online events. Access to our full ten-year archive. Get the latest AI news from The Decoder. Subscribe to The Decoder -->