메뉴

#AI연구

TD
The Decoder 50일 전
IMP 8

AI 모델, 도움 요청 대신 무작정 추측하는 경향

최신 벤치마크 테스트에 따르면 멀티모달 언어 모델은 시각적 정보가 누락되었을 때 사용자에게 도움을 요청하는 대신 환각(Hallucination)을 일으키거나 응답을 거부하는 것으로 나타났습니다. 연구진은 이를 해결하기 위해 모델이 정말로 필요할 때만 도움을 요청하도록 강화학습 기법(GRPO)을 적용했으며, 기존의 대형 모델들을 모두 능가하는 성과를 입증했습니다.

멀티모달 벤치마크 강화학습