메뉴
BL
The Decoder 53일 전

구글 AI 오버뷰 정확도 91%, 허나 출처 확인은 더 어려워져

IMP
8/10
핵심 요약

뉴욕타임스의 의뢰로 AI 스타트업 Oumi가 분석한 결과, 구글의 검색 요약 기능인 AI Overviews의 정답률이 최신 모델 Gemini 3 적용 후 91%로 향상된 것으로 나타났습니다. 그러나 정확도는 높아졌음에도 AI가 제시한 답변이 연결된 출처를 통해 검증되지 않는 비율(근거 없는 답변)이 56%로 오히려 악화되었습니다. 구글의 검색 규모를 고려할 때 9%의 오답률은 여전히 시간당 수백만 건의 잘못된 정보를 양산할 수 있다는 점에서 사용자 경험에 중대한 영향을 미칩니다.

번역된 본문

연구 결과, 구글의 AI 오버뷰는 10번 중 9번 정확하다

AI 스타트업 Oumi는 뉴욕타임스(New York Times)의 의뢰를 받아 4,326건의 구글 검색을 분석한 결과, 구글의 AI Overviews가 Gemini 2에서는 85%, Gemini 3에서는 91%의 정확도로 올바른 답변을 제공한 것으로 나타났습니다. 하지만 구글의 검색 규모를 고려하면 단 9%의 오답률도 시간당 수백만 건의 잘못된 답변으로 이어집니다. 구글 측은 이 연구에 "심각한 결함"이 있다고 반박했습니다.

정확도가 개선되었음에도 검증 가능성(verifiability)은 악화되었습니다. Gemini 3에서 올바른 답변 중 56%가 연결된 출처를 통해 정보를 확인할 수 없었으며, 이는 Gemini 2의 37%보다 크게 증가한 수치입니다.

이 기사에 대해 질문하기… 검색

구글은 AI가 생성한 모든 검색 결과 하단에 "AI 응답에는 실수가 포함될 수 있습니다."라는 면책 조항을 달아놓고 있습니다. 하지만 이러한 실수가 실제로 얼마나 자주 발생하는지는 대체로 연구된 바가 없었습니다.

AI 스타트업 Oumi는 뉴욕타임스의 의뢰로 업계 표준 벤치마크인 SimpleQA를 사용해 4,326건의 구글 검색을 조사했습니다. 이 테스트는 두 차례에 걸쳐 진행되었습니다. 10월에 AI 구동에 Gemini 2를 사용했을 때와, Gemini 3로 업그레이드된 후 2월에 다시 진행한 것입니다.

연구 결과는 다음과 같습니다. Gemini 2를 사용했을 때 AI Overviews는 85%의 확률로 정확한 답을 제공했습니다. Gemini 3에서는 이 수치가 91%로 올라갔습니다. 인상적으로 들리지만, 구글의 규모를 고려하면 이는 여전히 시간당 수백만 건의 잘못된 답변이 제공된다는 것을 의미합니다.

이 연구에서 다루지 않은 부분은 사용자가 기존 전통 검색 결과나 다른 출처를 통해 더 나은 답변을 얻었을지 여부입니다. 웹사이트의 모든 정보가 자동으로 올바른 것은 아닙니다. 진정한 질문은 사용자가 구글의 AI Overviews가 없었을 때보다 전반적으로 더 정확한 정보를 얻게 되는가입니다.

정확도는 올랐지만, 검증 가능성은 하락했다

또 다른 핵심 발견은 정확도가 Gemini 3로 향상되었지만, 실제로 답변의 검증 가능성은 악화되었다는 점입니다. Oumi는 구글이 연결한 출처들이 실제로 제공된 답변을 뒷받침하는지 확인했습니다. Gemini 2에서는 올바른 답변의 37%가 '근거 없는(ungrounded)' 상태, 즉 연결된 웹사이트가 해당 정보를 완전히 뒷받침하지 못했습니다. Gemini 3에서는 이 수치가 56%로 급증했습니다. 구글이 제공하는 출처를 바탕으로 답변을 검증할 방법이 아예 없는 경우가 많습니다.

이러한 출처들의 질도 의심스럽습니다. 구글이 인용한 5,380개의 출처 중 페이스북(Facebook)과 레딧(Reddit)이 각각 2위와 4위로 가장 많이 등장했습니다. 페이스북은 정답의 5%, 오답의 7%에서 출처로 활용되었습니다. 업계에서는 구글이 콘텐츠 사용을 두고 소송을 제기할 가능성이 적은 출처를 선호할 인센티브가 있을 수 있다는 지적도 있습니다.

뉴욕타임스는 시스템이 올바른 출처를 찾았음에도 불구하고 문제가 발생한 몇 가지 사례를 강조했습니다. 클래식 음악 명예의 전당(Classical Music Hall of Fame)에 대한 질문에서, 구글은 요요마(Yo-Yo Ma)가 회원으로 등록된 올바른 웹사이트를 식별했음에도 그의 헌액 기록이 없다고 잘못 주장했습니다. 노스캐롤라이나주 골즈버러(Goldsboro) 서쪽에 있는 강에 대해 묻자, 구글은 올바른 관광 웹사이트를 찾았지만 정보를 잘못 읽어 실제 서쪽에 있는 리틀 강(Little River) 대신 뉴스 강(Neuse River)을 답했습니다.

또한 밥 말리 뮤지엄(Bob Marley Museum)에 대한 질문에서 구글의 AI Overviews는 상충되는 정보가 담긴 페이스북 게시물, 여행 블로그, 위키피디아 페이지를 참고하여 1986년이 아닌 잘못된 개장 연도인 1987년을 제시했습니다.

구글, 연구 방법론에 반박

대규모로 답변을 검증하기 위해 Oumi는 자체적인 AI 검증 모델인 HallOumi를 사용했습니다. 이는 수천 건의 응답을 확인할 수 있는 유일한 실용적인 방법이지만, 명백한 약점도 존재합니다. 검사를 수행하는 AI 자체도 실수를 할 수 있다는 점입니다. 또한 AI 오버뷰는 동일한 검색에 대해서도 조회 시점이 단 몇 초 차이가 나더라도 다른 답변을 생성할 수 있습니다.

구글의 대변인 네드 애드리안스(Ned Adriance)는 이번 연구가 결함이 있다며 "심각한 허점"이 있다고 말했습니다. 그는 SimpleQA 벤치마크 자체에 잘못된 정보가 포함되어 있으며, 사람들이 실제로 구글에서 검색하는 내용을 반영하지 않는다고 덧붙였습니다. 이름과 달리 OpenAI가 개발한 SimpleQA는...

원문 보기
원문 보기 (영어)
Google's AI Overviews are correct nine out of ten times, study finds Matthias Bastian View the LinkedIn Profile of Matthias Bastian Apr 7, 2026 Nano Banana Pro prompted by THE DECODER Key Points The AI start-up Oumi analyzed 4,326 Google searches on behalf of the New York Times and found that Google's AI Overviews answered correctly 85% of the time with Gemini 2 and 91% with Gemini 3. At Google's scale, even a nine percent error rate translates to millions of wrong answers per hour. Google says the study has "serious holes." Despite the improved accuracy, verifiability has gotten worse: with Gemini 3, 56 percent of correct answers could not be verified through the linked sources, up from 37 percent with Gemini 2. Ask about this article… Search Google puts a disclaimer under every AI-generated search response: "AI responses may include mistakes." But just how often those mistakes actually happen has remained largely unstudied. On behalf of the New York Times, AI startup Oumi examined 4,326 Google searches using the industry-standard SimpleQA benchmark. The tests ran in two rounds: once in October with Gemini 2 powering the AI, and again in February after the upgrade to Gemini 3. The findings: with Gemini 2, AI overviews were correct 85 percent of the time. With Gemini 3, that number climbed to 91 percent. That sounds impressive, but at Google's scale, it still means millions of wrong answers every hour. Ad What the study doesn't address is whether users would have gotten better answers through traditional search results or other sources. Not everything on websites is automatically correct either. The real question is whether users end up with more correct information overall than they would without Google's AI Overviews. Ad DEC_D_Incontent-1 Accuracy is up, but verifiability is down Another key finding: while accuracy improved with Gemini 3, verifiability actually got worse. Oumi checked whether the sources Google linked actually supported the answers it gave. With Gemini 2, 37 percent of correct answers were "ungrounded," meaning the linked websites didn't fully back up the information. With Gemini 3, that figure jumped to 56 percent. Often, there's simply no way to verify an answer based on the source Google provides. The quality of those sources is questionable too. Out of 5,380 sources Google cited, Facebook and Reddit ranked second and fourth most common. Facebook showed up as a source in five percent of correct answers and seven percent of incorrect ones. Google may have an incentive to favor sources that are less likely to sue over content use . Ad The New York Times highlights several examples of how things can go wrong even when the system locates the right source. In a question about the Classical Music Hall of Fame, Google identified the correct website listing Yo-Yo Ma as a member but still claimed there was no record of his induction. When asked about the river west of Goldsboro, North Carolina, Google found the right tourism website but misread the information, naming the Neuse River instead of the actual Little River to the west. Ad DEC_D_Incontent-2 And for a question about the Bob Marley Museum, Google's AI Overview gave the wrong opening year—1987 instead of 1986—pulling from a Facebook post, a travel blog, and a Wikipedia page with conflicting information. Ad Google pushes back on the study's methods To verify answers at scale, Oumi used its own AI verification model, HallOumi. That's the only practical way to check thousands of responses, but it comes with an obvious weakness: the AI doing the checking can make mistakes too. Moreover, AI overviews can generate different answers for identical searches, even when queries are just seconds apart. Google spokesperson Ned Adriance called the study flawed, saying it has "serious holes." The SimpleQA benchmark itself contains incorrect information and doesn't reflect what people actually search for on Google, he said. Despite its name, SimpleQA, developed by OpenAI , is built around particularly tricky questions, ones where at least one AI model failed during a pre-screening process. That means the failure rate is naturally higher. The benchmark is also designed for scenarios without internet access. In the Artificial Analysis Intelligence Index, Google's latest model, Gemini 3.1 Pro, shows a 38 percentage point drop in hallucination rate compared to the earlier Gemini 3 , which was likely running as a less capable Flash version in Google's search at the time of testing. Google says results with web search are more accurate than those based purely on model knowledge. The real issue is what AI answers are doing to the open web The bigger debate around Google's AI overviews is about what they're doing to the internet. By serving up direct answers instead of sending users to external websites, Google is cutting off traffic to publishers and undermining their economic foundation . The open web is losing its role as a freely linked information network, increasingly replaced by a centralized AI interface under Google's control. A 90 percent accuracy rate is likely more than enough for most users and most searches to skip clicking through to the underlying website altogether. Studies showing that AI overviews hurt web traffic have consistently been denied by Google, which has yet to share any numbers of its own . Even OpenAI was more upfront when it first launched web features for ChatGPT , stating that "we appreciate that this is a new method of interacting with the web, and welcome feedback on additional ways to drive traffic back to sources and add to the overall health of the ecosystem," though that concern quietly faded as its search rollout progressed . AI News Without the Hype – Curated by Humans As a THE DECODER subscriber , you get ad-free reading, our weekly AI newsletter , the exclusive "AI Radar" Frontier Report 6× per year , access to comments, and our complete archive. Subscribe now Source: The New York Times