메뉴
BL
The Decoder 55일 전

알리바바 Qwen, 시각 AI 다단계 추론 오류 해결

IMP
8/10
핵심 요약

비전 언어 모델(VLM)은 이미지에 대한 다단계 추론 시 초기의 작은 인지 오류가 누적되어 최종 결과가 완전히 틀어지는 문제가 있습니다. 알리바바 Qwen 팀과 칭화대는 이러한 오류 누적을 방지하기 위해 모델이 매 단계마다 이미지를 다시 세밀하게 확인하도록 강제하는 'HopChain' 프레임워크를 개발했습니다. 이를 기반으로 강화학습을 수행한 결과 24개 벤치마크 중 20개에서 성능이 향상되는 등 시각적 추론 능력이 크게 개선되었습니다.

번역된 본문

알리바바의 Qwen 팀이 AI 비전 모델이 다단계 추론 과정에서 발생시키는 오류를 해결하기 위해 HopChain을 구축했습니다. 조나단 켐퍼(Jonathan Kemper)가 2026년 4월 6일 THE DECODER의 프롬프트로 작성한 Nano Banana Pro 기사입니다.

핵심 요약: 비전 언어 모델(VLM)은 이미지에 대해 연속적인 다단계 추론이 필요한 작업에서 지속적인 어려움을 겪으며, 이는 시각적 이해 능력의 근본적인 약점을 보여줍니다. 추론 체인 초기의 단일 오류(예: 물체 개수를 잘못 세거나 공간적 관계를 혼동하는 것)는 모든 후속 단계에 연쇄적으로 영향을 미쳐 결국 완전히 잘못된 결과를 낳습니다. 이를 해결하기 위해 알리바바 Qwen 팀과 칭화대 연구진은 각 단계에서 모델이 이미지를 다시 면밀히 검토하도록 강제하여 이러한 복합적 오류를 드러내고 해결하는 다단계 이미지 질문을 자동으로 생성하는 프레임워크인 HopChain을 개발했습니다.

AI 모델이 이미지에 대해 추론할 때 작은 인지 오류가 여러 단계에 걸쳐 누적되어 잘못된 답변을 만들어냅니다. HopChain 프레임워크는 이 문제를 직접적으로 겨냥하는 다단계 이미지 질문을 생성하여 24개 벤치마크 중 20개에서 성능을 향상시켰습니다.

비전 언어 모델(VLM)은 많은 이미지-텍스트 벤치마크에서 우수한 성능을 보이지만, 이미지에 대해 연속적인 다단계 추론이 필요한 작업에서는 정기적으로 실패합니다. 알리바바 Qwen 팀과 칭화대학교의 연구진은 이러한 현상이 발생하는 이유를 파고들었고, 이를 해결하기 위해 HopChain이라는 프레임워크를 구축했습니다.

VLM이 중간 단계를 포함하는 긴 응답, 즉 이른바 '사슬 사고(chain-of-thought)' 응답을 생성할 때 다양한 오류가 나타납니다. 모델은 물체의 개수를 잘못 세거나, 공간적 관계를 혼동하며, 디테일을 할루시네이션(환각 현상)하거나 논리적으로 결함이 있는 결론을 내립니다. 이러한 실수는 추론 체인 전체에 연쇄적인 영향을 미칩니다. 초기에 잘못 식별된 세부 사항 하나가 그럴듯하게 들리지만 결국에는 잘못된 주장으로 이어집니다.

검증 가능한 보상을 통한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)을 위한 기존 학습 데이터에서 모델이 자동으로 검증 가능한 정답을 통해 학습하지만, 여러 단계에 걸쳐 시각적 주의가 깊이 요구되는 작업은 거의 포함되어 있지 않습니다.

잘못된 점 개수와 주차 상황 오독의 예시 한 예시에서 모델은 여러 무당벌레의 점 개수를 세야 합니다. 5마리 중 3마리를 각각 한 개씩 잘못 세어 합산이 명백히 틀린 결과를 냅니다. 다른 사례에서 모델은 이미지 시퀀스에서 자동차의 위치를 올바르게 파악하지만, 차량이 주차장으로 들어가는 것을 빠져나가는 것으로 잘못 읽습니다. 세 번째 예시에서는 천문도에서 화살표가 잘못된 호(arc)를 가리키게 하여 결국 잘못된 계절을 도출합니다. 이 예시들은 사진, 다이어그램, 과학 삽화 등 다양하지만 동일한 패턴을 공유합니다. 하나의 잘못된 중간 단계가 이어지는 모든 것을 망친다는 것입니다.

모델이 계속 이미지를 보도록 강제하는 다단계 이미지 질문 HopChain은 각 단계가 이전 결과를 기반으로 구축되고 모델이 이미지를 다시 검토하도록 강제하는 이미지 질문을 자동으로 생성합니다. 연구진은 두 가지 유형의 연결 고리를 구축했습니다. 첫째, 텍스트 읽기나 색상 식별과 같은 단일 객체 인식과 크기 비율이나 공간적 배치와 같은 다중 객체 비교가 번갈아 가며 나오는 작업입니다. 둘째, 각 질문은 객체 간의 종속성 체인을 따르며, 모델은 이미 식별한 객체를 통해서만 다음 관련 객체를 찾을 수 있습니다. 모든 질문은 자동 정답 확인 역할을 하는 고유한 숫자로 끝납니다.

논문의 한 예시는 이러한 과정이 얼마나 복잡해질 수 있는지 보여줍니다. 모델은 먼저 장난감 양의 눈 개수를 세고, 배경 종이에 텍스트가 있는지 확인합니다. 그런 다음 근처에 있는 인형의 눈을 세고, 두 번째 인형 앞에 있는 종이에 적힌 단어를 읽고, 글자 수를 세며, 일련의 산술 단계를 거쳐 그 결과를 장면에 있는 장난감 인형의 총 수와 곱합니다. 정답은 72입니다.

인간의 품질 관리가 포함된 4단계 데이터 생성은 4단계로 실행됩니다.

원문 보기
원문 보기 (영어)
Alibaba's Qwen team built HopChain to fix how AI vision models fall apart during multi-step reasoning Jonathan Kemper View the LinkedIn Profile of Jonathan Kemper Apr 6, 2026 Nano Banana Pro prompted by THE DECODER Key Points Vision-language models consistently struggle with tasks that require multiple consecutive reasoning steps about an image, revealing a fundamental weakness in their visual understanding capabilities. A single error early in the reasoning chain—such as miscounting objects or confusing spatial relationships—cascades through all subsequent steps, ultimately producing entirely incorrect results. To address this, researchers from the Alibaba-Qwen team and Tsinghua University developed HopChain, a framework that automatically generates multi-step image questions where each step forces the model to re-examine the image closely, exposing and targeting these compounding failures. Ask about this article… Search When AI models reason about images, small perceptual errors compound across multiple steps and produce wrong answers. The HopChain framework generates multi-stage image questions that target this problem directly and improve 20 out of 24 benchmarks. Vision language models (VLMs) do well on many image-text benchmarks, but they regularly fall apart on tasks that require multiple consecutive reasoning steps about an image. Researchers from Alibaba's Qwen team and Tsinghua University dug into why this happens and built HopChain, a framework designed to fix it. When VLMs produce long responses with intermediate steps, so-called chain-of-thought responses , all kinds of errors show up. Models miscount objects, mix up spatial relationships, hallucinate details, or draw logically flawed conclusions. These mistakes cascade through the reasoning chain. One misidentified detail early on leads to an argument that sounds convincing but is ultimately wrong. Ad The existing training data for Reinforcement Learning with Verifiable Rewards (RLVR), where models learn from automatically verifiable answers, barely includes tasks that demand close visual attention across multiple steps. Ad DEC_D_Incontent-1 Miscounted dots and misread parking maneuvers In one example, the model has to count the dots on several ladybugs. It miscounts three out of five beetles by one dot each, adding up to a clearly wrong total. In another case, the model correctly spots a car's position in an image sequence but reads the movement as pulling out of a parking space instead of pulling in. A third example shows the model pointing an arrow in an astronomical diagram to the wrong arc and landing on the wrong season. The examples span photos, diagrams, and scientific illustrations but share the same pattern: one wrong intermediate step poisons everything that follows. Ad Multi-step image questions force models to keep looking HopChain automatically generates image questions where each step builds on previous results and forces the model to re-examine the image. The researchers built in two types of links: first, tasks alternate between single-object recognition, like reading text or identifying colors, and multi-object comparisons, like size ratios or spatial arrangements. Second, each question follows a dependency chain between objects, where the model can only find the next relevant object through the ones it already identified. Every question ends with a unique number that serves as an automatic answer check. One example from the paper gives a sense of how involved these can get: the model first counts the eyes on a toy sheep, then checks whether there's any text on the background paper. From there, it counts the eyes on a nearby puppet, reads a word on a piece of paper in front of a second puppet, counts the letters, works through a series of arithmetic steps, and multiplies the result by the total number of toy figures in the scene. The correct answer: 72. Ad DEC_D_Incontent-2 Four stages with human quality control Data generation runs in four stages. First, Alibaba's Qwen3-VL -235B-A22B-Thinking language model identifies object categories in an image. Then Meta's segmentation model SAM3 locates individual instances of those categories. Ad In the third step, the language model builds multi-level image questions around combinations of three to six objects. In the fourth step, four human annotators solve each question independently. Only questions where all four annotators agree on the answer make the cut. Questions a weaker model can easily handle get tossed out too. This process produces roughly 60,000 to 80,000 training examples per model. HopChain boosts 20 out of 24 benchmarks The researchers trained two models with this approach: Qwen3.5-35B-A3B and Qwen3.5-397B-A17B . They tested RLVR with only the existing training data against RLVR with the existing data plus HopChain questions, measuring performance across 24 benchmarks in four categories: STEM and puzzles, general image comprehension, text recognition and document comprehension, and video comprehension. For both model sizes, HopChain data improved 20 out of 24 benchmarks. The smaller model saw its EMMA score jump from 53 to 58 and CharXiv go from 69 to 73.1. The larger model's BabyVision climbed from 28.61 to 32.22, and ZeroBench doubled from 4 to 8. Since the generated questions aren't tailored to any specific benchmark, the researchers see this as evidence of genuine generalization. Even though the training data is entirely image-based, both models also improved on five out of six video benchmarks, suggesting the skills HopChain teaches carry over beyond still images. Full question chains make the difference An ablation study shows that complete chaining is key. When questions are stripped down to just their last step, the average score across five representative benchmarks drops from 70.4 to 64.3. Keeping only the second half of the chain gets it to 66.7. The gains also scale with the length of the reasoning chain. For especially long responses, accuracy improvements for the larger model top 50 points. The error breakdown confirms that HopChain helps across the board: perception, logic, knowledge, and hallucination errors all see comparable gains. The distribution of fixed errors closely tracks the original error profile. One limitation: the pipeline needs SAM3 to recognize objects in the image, so images without segmentable objects get left out of data generation. That visual perception remains a core weakness of today's models showed up recently in Moonshot AI's WorldVQA benchmark too . Even the top-scoring model correctly identified less than half of the objects shown, and every model systematically overestimated its own accuracy. On top of that, a Stanford analysis found that frontier models achieve 70 to 80 percent of their image benchmark scores without ever seeing an image at all , confidently describing visual details that don't exist. AI News Without the Hype – Curated by Humans As a THE DECODER subscriber , you get ad-free reading, our weekly AI newsletter , the exclusive "AI Radar" Frontier Report 6× per year , access to comments, and our complete archive. Subscribe now Source: Arxiv
관련 소식