알리바바 Qwen, 시각 AI 다단계 추론 오류 해결
비전 언어 모델(VLM)은 이미지에 대한 다단계 추론 시 초기의 작은 인지 오류가 누적되어 최종 결과가 완전히 틀어지는 문제가 있습니다. 알리바바 Qwen 팀과 칭화대는 이러한 오류 누적을 방지하기 위해 모델이 매 단계마다 이미지를 다시 세밀하게 확인하도록 강제하는 'HopChain' 프레임워크를 개발했습니다. 이를 기반으로 강화학습을 수행한 결과 24개 벤치마크 중 20개에서 성능이 향상되는 등 시각적 추론 능력이 크게 개선되었습니다.
알리바바의 Qwen 팀이 AI 비전 모델이 다단계 추론 과정에서 발생시키는 오류를 해결하기 위해 HopChain을 구축했습니다. 조나단 켐퍼(Jonathan Kemper)가 2026년 4월 6일 THE DECODER의 프롬프트로 작성한 Nano Banana Pro 기사입니다.
핵심 요약: 비전 언어 모델(VLM)은 이미지에 대해 연속적인 다단계 추론이 필요한 작업에서 지속적인 어려움을 겪으며, 이는 시각적 이해 능력의 근본적인 약점을 보여줍니다. 추론 체인 초기의 단일 오류(예: 물체 개수를 잘못 세거나 공간적 관계를 혼동하는 것)는 모든 후속 단계에 연쇄적으로 영향을 미쳐 결국 완전히 잘못된 결과를 낳습니다. 이를 해결하기 위해 알리바바 Qwen 팀과 칭화대 연구진은 각 단계에서 모델이 이미지를 다시 면밀히 검토하도록 강제하여 이러한 복합적 오류를 드러내고 해결하는 다단계 이미지 질문을 자동으로 생성하는 프레임워크인 HopChain을 개발했습니다.
AI 모델이 이미지에 대해 추론할 때 작은 인지 오류가 여러 단계에 걸쳐 누적되어 잘못된 답변을 만들어냅니다. HopChain 프레임워크는 이 문제를 직접적으로 겨냥하는 다단계 이미지 질문을 생성하여 24개 벤치마크 중 20개에서 성능을 향상시켰습니다.
비전 언어 모델(VLM)은 많은 이미지-텍스트 벤치마크에서 우수한 성능을 보이지만, 이미지에 대해 연속적인 다단계 추론이 필요한 작업에서는 정기적으로 실패합니다. 알리바바 Qwen 팀과 칭화대학교의 연구진은 이러한 현상이 발생하는 이유를 파고들었고, 이를 해결하기 위해 HopChain이라는 프레임워크를 구축했습니다.
VLM이 중간 단계를 포함하는 긴 응답, 즉 이른바 '사슬 사고(chain-of-thought)' 응답을 생성할 때 다양한 오류가 나타납니다. 모델은 물체의 개수를 잘못 세거나, 공간적 관계를 혼동하며, 디테일을 할루시네이션(환각 현상)하거나 논리적으로 결함이 있는 결론을 내립니다. 이러한 실수는 추론 체인 전체에 연쇄적인 영향을 미칩니다. 초기에 잘못 식별된 세부 사항 하나가 그럴듯하게 들리지만 결국에는 잘못된 주장으로 이어집니다.
검증 가능한 보상을 통한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)을 위한 기존 학습 데이터에서 모델이 자동으로 검증 가능한 정답을 통해 학습하지만, 여러 단계에 걸쳐 시각적 주의가 깊이 요구되는 작업은 거의 포함되어 있지 않습니다.
잘못된 점 개수와 주차 상황 오독의 예시 한 예시에서 모델은 여러 무당벌레의 점 개수를 세야 합니다. 5마리 중 3마리를 각각 한 개씩 잘못 세어 합산이 명백히 틀린 결과를 냅니다. 다른 사례에서 모델은 이미지 시퀀스에서 자동차의 위치를 올바르게 파악하지만, 차량이 주차장으로 들어가는 것을 빠져나가는 것으로 잘못 읽습니다. 세 번째 예시에서는 천문도에서 화살표가 잘못된 호(arc)를 가리키게 하여 결국 잘못된 계절을 도출합니다. 이 예시들은 사진, 다이어그램, 과학 삽화 등 다양하지만 동일한 패턴을 공유합니다. 하나의 잘못된 중간 단계가 이어지는 모든 것을 망친다는 것입니다.
모델이 계속 이미지를 보도록 강제하는 다단계 이미지 질문 HopChain은 각 단계가 이전 결과를 기반으로 구축되고 모델이 이미지를 다시 검토하도록 강제하는 이미지 질문을 자동으로 생성합니다. 연구진은 두 가지 유형의 연결 고리를 구축했습니다. 첫째, 텍스트 읽기나 색상 식별과 같은 단일 객체 인식과 크기 비율이나 공간적 배치와 같은 다중 객체 비교가 번갈아 가며 나오는 작업입니다. 둘째, 각 질문은 객체 간의 종속성 체인을 따르며, 모델은 이미 식별한 객체를 통해서만 다음 관련 객체를 찾을 수 있습니다. 모든 질문은 자동 정답 확인 역할을 하는 고유한 숫자로 끝납니다.
논문의 한 예시는 이러한 과정이 얼마나 복잡해질 수 있는지 보여줍니다. 모델은 먼저 장난감 양의 눈 개수를 세고, 배경 종이에 텍스트가 있는지 확인합니다. 그런 다음 근처에 있는 인형의 눈을 세고, 두 번째 인형 앞에 있는 종이에 적힌 단어를 읽고, 글자 수를 세며, 일련의 산술 단계를 거쳐 그 결과를 장면에 있는 장난감 인형의 총 수와 곱합니다. 정답은 72입니다.
인간의 품질 관리가 포함된 4단계 데이터 생성은 4단계로 실행됩니다.