TD
The Decoder • 55일 전
IMP 8
알리바바 Qwen, 시각 AI 다단계 추론 오류 해결
비전 언어 모델(VLM)은 이미지에 대한 다단계 추론 시 초기의 작은 인지 오류가 누적되어 최종 결과가 완전히 틀어지는 문제가 있습니다. 알리바바 Qwen 팀과 칭화대는 이러한 오류 누적을 방지하기 위해 모델이 매 단계마다 이미지를 다시 세밀하게 확인하도록 강제하는 'HopChain' 프레임워크를 개발했습니다. 이를 기반으로 강화학습을 수행한 결과 24개 벤치마크 중 20개에서 성능이 향상되는 등 시각적 추론 능력이 크게 개선되었습니다.
비전 언어 모델 멀티모달 AI 추론 오류