#비전 언어 모델

중국 오카(Orca) 세계 모델, 행동 라벨링 없이도 로봇 전문 시스템과 맞먹는 성능 달성

베이징인공지능연구원(BAAI)이 단 하나의 행동 라벨링 데이터 없이도 로봇 제어 등 5가지 주요 과업에서 전문 시스템과 동등한 성능을 보이는 '오카(Orca)' 세계 모델을 공개했습니다. 이 모델은 픽셀이나 토큰 예측 대신 추상적인 내부 표현을 통해 세계의 상태를 예측하여 학습하며, 이를 통해 로봇 공학의 만성적인 데이터 부족 문제를 해결할 수 있는 대안으로 주목받고 있습니다.

세계 모델 로봇 공학 BAAI

The Decoder • 114일 전

IMP 8

알리바바 Qwen, 시각 AI 다단계 추론 오류 해결

비전 언어 모델(VLM)은 이미지에 대한 다단계 추론 시 초기의 작은 인지 오류가 누적되어 최종 결과가 완전히 틀어지는 문제가 있습니다. 알리바바 Qwen 팀과 칭화대는 이러한 오류 누적을 방지하기 위해 모델이 매 단계마다 이미지를 다시 세밀하게 확인하도록 강제하는 'HopChain' 프레임워크를 개발했습니다. 이를 기반으로 강화학습을 수행한 결과 24개 벤치마크 중 20개에서 성능이 향상되는 등 시각적 추론 능력이 크게 개선되었습니다.

비전 언어 모델 멀티모달 AI 추론 오류