구글 AI 오버뷰 정확도 91%, 허나 출처 확인은 더 어려워져
뉴욕타임스의 의뢰로 AI 스타트업 Oumi가 분석한 결과, 구글의 검색 요약 기능인 AI Overviews의 정답률이 최신 모델 Gemini 3 적용 후 91%로 향상된 것으로 나타났습니다. 그러나 정확도는 높아졌음에도 AI가 제시한 답변이 연결된 출처를 통해 검증되지 않는 비율(근거 없는 답변)이 56%로 오히려 악화되었습니다. 구글의 검색 규모를 고려할 때 9%의 오답률은 여전히 시간당 수백만 건의 잘못된 정보를 양산할 수 있다는 점에서 사용자 경험에 중대한 영향을 미칩니다.
연구 결과, 구글의 AI 오버뷰는 10번 중 9번 정확하다
AI 스타트업 Oumi는 뉴욕타임스(New York Times)의 의뢰를 받아 4,326건의 구글 검색을 분석한 결과, 구글의 AI Overviews가 Gemini 2에서는 85%, Gemini 3에서는 91%의 정확도로 올바른 답변을 제공한 것으로 나타났습니다. 하지만 구글의 검색 규모를 고려하면 단 9%의 오답률도 시간당 수백만 건의 잘못된 답변으로 이어집니다. 구글 측은 이 연구에 "심각한 결함"이 있다고 반박했습니다.
정확도가 개선되었음에도 검증 가능성(verifiability)은 악화되었습니다. Gemini 3에서 올바른 답변 중 56%가 연결된 출처를 통해 정보를 확인할 수 없었으며, 이는 Gemini 2의 37%보다 크게 증가한 수치입니다.
이 기사에 대해 질문하기… 검색
구글은 AI가 생성한 모든 검색 결과 하단에 "AI 응답에는 실수가 포함될 수 있습니다."라는 면책 조항을 달아놓고 있습니다. 하지만 이러한 실수가 실제로 얼마나 자주 발생하는지는 대체로 연구된 바가 없었습니다.
AI 스타트업 Oumi는 뉴욕타임스의 의뢰로 업계 표준 벤치마크인 SimpleQA를 사용해 4,326건의 구글 검색을 조사했습니다. 이 테스트는 두 차례에 걸쳐 진행되었습니다. 10월에 AI 구동에 Gemini 2를 사용했을 때와, Gemini 3로 업그레이드된 후 2월에 다시 진행한 것입니다.
연구 결과는 다음과 같습니다. Gemini 2를 사용했을 때 AI Overviews는 85%의 확률로 정확한 답을 제공했습니다. Gemini 3에서는 이 수치가 91%로 올라갔습니다. 인상적으로 들리지만, 구글의 규모를 고려하면 이는 여전히 시간당 수백만 건의 잘못된 답변이 제공된다는 것을 의미합니다.
이 연구에서 다루지 않은 부분은 사용자가 기존 전통 검색 결과나 다른 출처를 통해 더 나은 답변을 얻었을지 여부입니다. 웹사이트의 모든 정보가 자동으로 올바른 것은 아닙니다. 진정한 질문은 사용자가 구글의 AI Overviews가 없었을 때보다 전반적으로 더 정확한 정보를 얻게 되는가입니다.
정확도는 올랐지만, 검증 가능성은 하락했다
또 다른 핵심 발견은 정확도가 Gemini 3로 향상되었지만, 실제로 답변의 검증 가능성은 악화되었다는 점입니다. Oumi는 구글이 연결한 출처들이 실제로 제공된 답변을 뒷받침하는지 확인했습니다. Gemini 2에서는 올바른 답변의 37%가 '근거 없는(ungrounded)' 상태, 즉 연결된 웹사이트가 해당 정보를 완전히 뒷받침하지 못했습니다. Gemini 3에서는 이 수치가 56%로 급증했습니다. 구글이 제공하는 출처를 바탕으로 답변을 검증할 방법이 아예 없는 경우가 많습니다.
이러한 출처들의 질도 의심스럽습니다. 구글이 인용한 5,380개의 출처 중 페이스북(Facebook)과 레딧(Reddit)이 각각 2위와 4위로 가장 많이 등장했습니다. 페이스북은 정답의 5%, 오답의 7%에서 출처로 활용되었습니다. 업계에서는 구글이 콘텐츠 사용을 두고 소송을 제기할 가능성이 적은 출처를 선호할 인센티브가 있을 수 있다는 지적도 있습니다.
뉴욕타임스는 시스템이 올바른 출처를 찾았음에도 불구하고 문제가 발생한 몇 가지 사례를 강조했습니다. 클래식 음악 명예의 전당(Classical Music Hall of Fame)에 대한 질문에서, 구글은 요요마(Yo-Yo Ma)가 회원으로 등록된 올바른 웹사이트를 식별했음에도 그의 헌액 기록이 없다고 잘못 주장했습니다. 노스캐롤라이나주 골즈버러(Goldsboro) 서쪽에 있는 강에 대해 묻자, 구글은 올바른 관광 웹사이트를 찾았지만 정보를 잘못 읽어 실제 서쪽에 있는 리틀 강(Little River) 대신 뉴스 강(Neuse River)을 답했습니다.
또한 밥 말리 뮤지엄(Bob Marley Museum)에 대한 질문에서 구글의 AI Overviews는 상충되는 정보가 담긴 페이스북 게시물, 여행 블로그, 위키피디아 페이지를 참고하여 1986년이 아닌 잘못된 개장 연도인 1987년을 제시했습니다.
구글, 연구 방법론에 반박
대규모로 답변을 검증하기 위해 Oumi는 자체적인 AI 검증 모델인 HallOumi를 사용했습니다. 이는 수천 건의 응답을 확인할 수 있는 유일한 실용적인 방법이지만, 명백한 약점도 존재합니다. 검사를 수행하는 AI 자체도 실수를 할 수 있다는 점입니다. 또한 AI 오버뷰는 동일한 검색에 대해서도 조회 시점이 단 몇 초 차이가 나더라도 다른 답변을 생성할 수 있습니다.
구글의 대변인 네드 애드리안스(Ned Adriance)는 이번 연구가 결함이 있다며 "심각한 허점"이 있다고 말했습니다. 그는 SimpleQA 벤치마크 자체에 잘못된 정보가 포함되어 있으며, 사람들이 실제로 구글에서 검색하는 내용을 반영하지 않는다고 덧붙였습니다. 이름과 달리 OpenAI가 개발한 SimpleQA는...