AI 검색 에이전트, 실제 검색보다 기존 지식 활용해
최신 연구에 따르면 주요 AI 검색 에이전트들은 웹을 실제로 탐색해 정보를 찾기보다는 이미 학습된 기존 지식을 확인하는 용도로 검색을 활용하는 경향이 있습니다. 기존 벤치마크에서 모델들이 내 지식을 넘어서는 실시간 정보를 필요로 하는 새로운 환경(LiveBrowseComp)에 놓이자 성능과 순위가 크게 하락했습니다. 이는 정적 벤치마크 점수가 모델의 실제 검색 역량이 아닌 단순히 얼마나 많은 지식을 암기하고 있는지를 보여준다는 것을 시사합니다.