화려한 영상 AI, 세상 이해는 아직 한참 멀었다
최신 AI 영상 생성 모델들이 시각적인 퀄리티에서는 비약적인 발전을 이뤘지만, 여전히 물리 법칙이나 논리적 인과관계에 대한 이해력이 크게 떨어진다는 벤치마크가 나왔습니다. 특히 오픈소스 모델들은 상용 모델에 비해 프롬프트 의존도가 높고 복잡한 논리적 추론 과제에서 대부분 실패하는 것으로 나타났습니다.
최신 벤치마크, AI 영상 생성기는 여전히 세상을 이해하지 못한다는 점을 확인하다.
Sora 2, Seedance 2.0, Veo 3.1과 같은 최신 영상 생성 모델들은 점점 더 인상적인 영상을 만들어내고 있습니다. 하지만 칭화대학교의 새로운 벤치마크는 계속해서 제기되어 온 문제를 다시 한번 확인시켜 줍니다. 시각적 품질과 실제 세상에 대한 이해는 전혀 다른 문제라는 것입니다.
WorldReasonBench는 화질에 집중하는 대신, 모델이 주어진 시작 장면을 물리적, 사회적, 논리적, 정보적 측면에서 타당한 방식으로 이어나갈 수 있는지 테스트합니다. 기본적인 테스트 과제를 생각해 봅시다. 생성기에게 가지에 걸려 있는 사과 이미지를 주고, 사과를 떨어뜨리라고 지시합니다. 결과물은 훌륭해 보일 수 있습니다. 부드러운 움직임, 사실적인 질감, 멋진 조명. 하지만 여전히 물리 법칙을 근본적으로 틀리게 적용할 수 있습니다. 사과가 위로 날아가거나, 풍선처럼 터지거나, 곡선이 아닌 직선으로 떨어질 수도 있습니다. 기존의 표준 품질 평가 지표들은 여전히 그 영상의 사실성에 높은 점수를 줄 것입니다. 바로 이 간극을 WorldReasonBench가 잡아내고자 설계된 것입니다.
WorldReasonBench는 4가지 영역에 걸쳐 약 400개의 테스트 과제를 포함하고 있습니다. 세계 지식(물리, 날씨, 문화적 규범), 인간 중심 장면(사물 다루기, 사회적 상호작용), 논리적 추론(수학, 기하학, 과학 실험), 정보 기반 추론(데이터 및 도표 읽기)이 그것입니다. 점수 산출은 두 단계로 이루어집니다. 첫 번째로, 과정 인식(Process-aware) 방법은 구조화된 질문을 사용해 영상이 타당한 방식으로 올바른 최종 상태에 도달했는지 확인합니다. 그런 다음 두 번째 단계에서 추론의 질, 시간적 일관성, 시각적 미학을 평가합니다.
연구팀은 벤치마크와 함께 훈련된 평가자들이 순위를 매긴 약 6,000개의 영상 비교 데이터 세트인 WorldRewardBench도 공개했습니다.
상용 모델이 압도적인 차이로 앞서지만, 논리적 추론은 모두의 걸림돌이다.
연구진은 5개의 상용 시스템(Sora 2, Kling, Wan 2.6, Seedance 2.0, Veo 3.1-Fast)과 6개의 오픈소스 모델(LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, LongCat-Video)을 테스트했습니다. 상용 생성기는 핵심 추론 지표에서 오픈소스 모델이 기록한 점수의 약 두 배를 기록했으며, 두 그룹 간에는 통계적인 점수 겹침이 전혀 없었습니다.
바이트댄스(ByteDance)의 Seedance 2.0이 1위를 차지했으며, 10번의 통계적 재실행 중 거의 9번에서 1위를 차지했습니다. Veo 3.1-Fast는 세계 지식 분야에서 가장 좋은 성적을 냈고, Sora 2는 인간 중심 장면에서 선두를 달렸습니다. Seedance 2.0은 인간 평가 지표에서도 Veo 3.1-Fast, Kling, Wan 2.6을 제쳤습니다.
순위보다 더 중요한 것은 모든 모델의 공통된 약점입니다. 바로 '논리적 추론'이 테스트된 모든 모델에게 가장 어려운 카테고리라는 점입니다. 최고 수준의 상용 시스템조차도 이 분야에서는 전체 평균 점수보다 훨씬 낮은 점수를 기록했으며, 대부분의 오픈소스 모델은 이 추론 과제에서 거의 완전히 실패했습니다. 정보 기반 추론은 두 번째로 어려운 분야였으며, 특히 작업에 물리적으로 타당한 상태 변화나 텍스트 및 숫자의 정확한 보존이 요구될 때 두드러졌습니다.
이 연구는 또한 올바른 답변 중 정적인 스냅샷이 아닌 동적이고 과정 기반 단계에서 나온 비율을 추적하는 새로운 지표를 도입했습니다. 상용 모델은 이 지표에서 훨씬 높은 점수를 기록했는데, 이는 오픈소스 모델이 정말로 부족한 부분이 '겉보기'가 아니라 '원인과 결과의 이해'에 있음을 시사합니다.
모델에 단계별로 일어나야 할 일을 구체적으로 명시한 더 자세한 프롬프트를 제공하면, 오픈소스 생성기의 성능 향상이 가장 컸습니다. 이들은 단순히 상용 경쟁 모델보다 프롬프트의 질에 더 많이 의존합니다. 이는 상용 모델의 더 강력한 추론 능력이 가져온 부작용일 수 있습니다.
자동화된 평가 점수가 인간의 판단과 일치하다.
연구진은 자신들의 평가 지표를 검증하기 위해, 인간이 영상을 비교하고 순위를 매긴 결과와 비교했습니다. 핵심 평가 지표는 인간의 판단과 매우 밀접하게 연관되어 있었으며, 영상을 한 쌍으로 비교하는 기존의 AI 평가 모델(AI Judge)보다 확실히 우수한 성능을 보였습니다.
이러한 결론은 점점 더 늘어나는 증거들과 일치합니다. 해상도, 영상 길이, 제어 가능성 측면에서는 확실한 발전이 있었음에도 불구하고, 픽셀 생성기에서 신뢰할 수 있는 세계 모델(World Model)로 도약하는 일은 아직 일어나지 않았습니다.