메뉴
BL
Wired AI 5일 전

팩트체커가 말하는 AI의 오답률

IMP
8/10
핵심 요약

WIRED의 전문 팩트체커는 AI 검색 엔진과 챗봇이 제공하는 정보의 최대 절반이 틀릴 수 있다고 경고합니다. AI는 방대한 데이터를 분류하는 데 도움이 되지만, 여전히 환각(Hallucination) 현상을 일으키며 진실을 검증하는 과정에서 인간의 전문적 개입은 필수적입니다. 따라서 AI를 정보의 탐색 도구로 사용할 때는 그 정확성을 비판적으로 검토하는 자세가 요구됩니다.

번역된 본문

미국인의 거의 절반은 정보를 찾고 아이디어를 얻기 위해 AI를 사용한다고 말합니다. 그 이유를 알기 어렵지 않습니다. 소셜 미디어는 쓰레기 같은 정보로 전락하고 있고, 구글은 레딧(Reddit) 스레드와 콘텐츠 팜(Content farm)으로 향하는 영광스러운 랜딩 페이지 역할을 하고 있어, 우리 대부분은 신뢰할 수 있는 무언가를 목말라하고 있기 때문입니다. 게다가 챗봇은 정말 유용하죠, 그렇지 않나요? 제가 처음 챗봇과 상호작용했을 때, 나는 그것이 자원을 엄청나게 낭비하고 있다는 것을 알고 있는지 물어보았습니다. 30분 후, 저는 비건 크림 치즈를 만드는 새로운 레시피를 얻었습니다. 저는 그 레시피를 결코 시도해보지 않았습니다. 대신, LLM(대형 언어 모델)이 학습했을 가능성이 있는 인간이 직접 만든 레시피를 찾았죠. 물론 이것이 이러한 모델이 작동하는 방식입니다. 그들은 집단 지성을 당신에게 맞춤화된 것처럼 느껴지도록 재포장합니다. 이는 유제품 대체품 정도에는 괜찮을지 모릅니다 (비건 블로거가 아니라면 말입니다). 하지만 세상의 질서와 진실, 그리고 WIRED의 팩트체커로서 제 역할의 초점과 관련해서는 그 위험이 기하급수적으로 커집니다.

지난 1년 남짓한 시간 동안, 점점 더 많은 사람들이 저를 동정하는 눈으로 바라보았습니다. 분명 잡지사의 팩트체커는 이 AI로 업그레이드된 세계에서 오래갈 수 없을 것이라고요요. 저를 바보라고 부르셔도 좋지만, 저는 그렇게 걱정하지 않습니다. 제 결론에 따르면 인류의 집단 지식 중 아주 적은 부분만이 인터넷에 존재합니다. 그리고 제 연구에 따르면, AI는 사람들이 생각하는 것보다 훨씬 더 자주 틀립니다.

작가 콜린 디키(Colin Dickey)에 따르면, 톰 울프(Tom Wolfe)는 팩트체커를 '위대한 작가의 산문을 트집 잡고 품위를 떨어뜨리기 위해 함께 공모하는 여자들과 평범한 편집자들의 비밀 결사'로 생각했던 것이 분명합니다. 정의로서 나쁘지 않습니다 (비록 제 상사와 많은 동료들이 남성이지만요). 제가 뭐라고 할 수 있을까요? AI와 달리 성가신 존재가 되는 것이 우리의 일입니다. WIRED의 팩트체커 부서는 올드스쿨입니다: 세심한 한 줄 한 줄의 주석 달기, 가능할 때마다 1차 출처 활용, 그리고 더 넓은 규모의 윤리적, 법적 검토를 수행합니다. 우리는 기본적인 가정에 의문을 제기하고, 새롭거나 충돌하는 정보를 찾으며, 사람들에게 전화를 걸어 대화하며 확실하게 확인합니다. 이는 뉴스 속도에 맞춰 최선을 다해 기능하는 신속한 동료 평가(peer review)입니다.

제가 아는 한, AI는 아직 이 과정을 대체하지 못했습니다. AI가 대체한 것은 '사후(post hoc)' 팩트체킹, 즉 사건이 발생한 후 그 사실관계를 분석하는 스노프스(Snopes) 스타일의 분석입니다. 영국에서는 'Full Fact'라는 이니셔티브가 허위 정보의 확산을 저지하기 위해 자체 AI 도구를 구축했습니다. 40개 이상의 국가에서 사용되는 이 도구는 소셜 미디어 게시물부터 팟캐스트 대본까지 방대한 양의 데이터를 처리한 다음, 인간이 추가로 조사할 수 있는 구체적인 주장을 정확히 찾아냅니다. "반드시 인간이 필요합니다." Full Fact의 공공 업무 책임자인 Mark Frankel은 말합니다. 그 이유는 간단합니다. AI는 여전히 틀리기 때문입니다.

팩트체커로서, 제가 AI가 얼마나 자주 틀리는지 정확히 말해드릴 수 있다면 좋겠습니다. 하지만 그건 쉽지 않습니다. 2018년 이후 LLM에 관한 거의 17,000편의 논문이 arXiv에 게재되었으며, 많은 논문이 그 신뢰성 문제에 초점을 맞추고 있습니다. 그럼에도 불구하고 작업 가능한 수치를 짚어내려고 노력할 가치는 있습니다. WIRED의 팩트체킹 데스크를 거치는 모든 기사에는 대개 상당한 양의 'b-matter(기사 맥락을 이해하는 데 도움이 되는 통계, 뉴스 이벤트, 인용문 등의 기본 정보)'가 있습니다. 팩트체커들은 이 기본 정보를 구글링하는 경향이 있으며, 그 과정은 검색 엔진의 끔찍한 'AI 개요(AI Overviews)' 형태로 제 AI와의 주된 상호작용을 구성합니다. 제 전문적인 의견으로는, 이 기능은 3분의 1 정도의 시간 동안 사용할 수 없을 정도로 틀립니다. 하지만 이것은 관대한 평가일 수 있습니다. 토우 디지털 저널리즘 센터(Tow Center for Digital Journalism)의 2025년 3월 연구에 따르면 AI 기반 검색 엔진의 응답 중 60% 이상이 부정확한 것으로 나타났습니다. BBC의 연구는 챗봇의 오답률을 45%에 가까운 것으로 보고 있으며, 이 숫자가 제가 더 자주 인용되는 것을 봅니다. 백분율은 거리감을 느끼게 하니, 조금 더 명확히 말씀드리겠습니다. AI는 절반의 시간 동안 틀릴 수 있습니다.

어떤 모델을 사용하느냐가 중요할까요? 일론 머스크는 그록(Grok)이 가장 똑똑하다고 말했지만, 저는 이에 동의하는 연구를 많이 보지 못했습니다. 클로드(Claude)는 팩트체킹에 초점을 맞춰 개발된 벤치마크 테스트인 RealFactBench에서 1위를 차지했습니다.

원문 보기
원문 보기 (영어)
Comment Loader Save Story Save this story Comment Loader Save Story Save this story Nearly half of Americans say they use AI to find information and generate ideas. It’s not hard to see why. As social media devolves into slop —and Google into a glorified landing page for Reddit threads and content farms—most of us are starved for something reliable. Plus, chatbots are so helpful , aren’t they? The first time I interacted with one, I asked if it knew it was a huge drain on resources. Half an hour later, I had a new recipe for vegan cream cheese. I never tried the recipe. Instead, I found a human-created one that the LLM might have scraped. That’s the way these models work, of course. They repackage collective knowledge into something that feels tailored to you. This may be OK for dairy alternatives (unless you’re a vegan blogger). But on the order of the world, and truth —the focus of my role as a fact-checker at WIRED—the stakes are exponentially higher. Over the past year or so, more and more people have looked at me with great pity. Surely a fact-checker at a magazine isn’t long for this AI-upgraded world. Call me foolish, but I’m not that worried. Very little of humanity’s collective knowledge, I’ve concluded, lives on the internet. And according to my research, AI is even more wrong than people might think. Tom Wolfe evidently thought of fact-checkers, according to the writer Colin Dickey , as a “cabal of women and middling editors all collaborating to henpeck and emasculate the prose of the Great Writer.” As definitions go, it’s not bad (though my boss and many colleagues are men). What can I say? It’s our job, unlike AI’s , to be annoying. WIRED’s fact-checking department is old-school: meticulous line-by-line annotations, primary sources whenever possible, and a broader-scale ethical and legal review. We question basic assumptions, look for new or conflicting information, call and talk to people—make sure. It’s a quick-hit peer review, functioning as best it can at the same pace as the news itself. As far as I can tell, AI hasn’t come for this process quite yet. What it has come for is “post hoc” fact-checking, the Snopes-style analysis of something’s factuality after the fact. In the UK, an initiative called Full Fact has built out its own AI tools to help thwart the spread of misinformation. These tools, used in more than 40 countries, process huge volumes of data, from social media posts to podcast transcripts, then pinpoint specific claims that humans can investigate further. “You definitely need a human being,” says Mark Frankel, Full Fact’s head of public affairs. The reason for that is simple: AI still gets things wrong. As a fact-checker, I’d love to be able to tell you exactly how often. But it’s not so easy. Since 2018, nearly 17,000 papers have been posted to arXiv on LLMs, many focused specifically on the question of their reliability. Still, it’s worth trying to pin down a working figure. In any article that comes across WIRED’s fact-checking desk, there’s usually a decent amount of “b-matter”: statistics, news events, quotes, anything that helps contextualize the topic. Fact-checkers tend to Google this basic information, and that process, in the form of the search engine’s dreaded AI Overviews , constitutes my main interaction with AI. In my professional opinion, it’s unusable—wrong—about a third of the time. This might be a generous assessment, though. A March 2025 study from the Tow Center for Digital Journalism found that more than 60 percent of responses from AI-powered search engines were inaccurate. A BBC study puts the wrongness of chatbots closer to 45 percent , the number I see cited more often. Because percentages are distancing, let me put this more plainly: AI could be wrong about half the time. Does it matter which model? Elon Musk has said Grok is the smartest , but I haven’t seen much research that agrees. Claude led the pack in RealFactBench, a fact-checking-focused benchmark test developed by computer scientists in China and the UK last year. It scored 73 percent accuracy across all metrics. (To be fair, Grok was not assessed.) Another benchmark, SimpleQA, developed by OpenAI in October 2024, posed more than 4,000 single-answer questions to models from OpenAI and Anthropic. None of the models exceeded 50 percent accuracy. Google updated the benchmark earlier this year, winnowing the question set to 1,000. Gemini 2.5 Pro came out on top, with 55.6 percent accuracy. Then there’s the models’ own assessments. When I asked ChatGPT how accurate the major LLMs are, it told me that most models had 90 to 96 percent accuracy on some professional-style tests. It then offered a link, confusingly, to a paper on a sleep medicine certification exam. On “general real-world questions,” it simply offered me the rate at which models like it have been shown to hallucinate: 1 to 2 percent, apparently, though when I tried to click through to that referenced source, it didn’t exist. Some say the models are getting smarter, but this doesn’t necessarily mean fewer hallucinations. In fact, it could mean more, a kind of overcompensation rooted ineradicably in their programmed need to please users. In a 2025 report on the future of AI by the Association for the Advancement of Artificial Intelligence , 60 percent of surveyed researchers doubted that the “factuality” problem would be solved anytime soon. When would-be fact-checkers apply for a position, most are given a test. In my case, the test involved a story about an alleged robocalling kingpin, and I was tasked with writing a memo detailing how I’d go about checking the piece for accuracy. At the end, three quick-fire bonus questions aimed to suss out how I’d handle individual facts. Recently, I dug out that old test and gave it to (the free versions of) ChatGPT, Claude, Gemini, and Grok. Grok came out of the ether like I was interrupting its supper: “Yes, I know exactly what fact checking is.” OK. It talked a lot about bias and put “credible” and “truth” in very loud quotation marks. It was also obsessed with data, along with gathering and analyzing more data than would ever be practicable or possible for a working fact-checker. It did, somewhat to my surprise, point out that fact-checking was historically women’s work. Claude and Gemini did pretty well. They understood the task, laid out a reasonable approach, even flagged potential legal issues. Gemini did give me this very cringe phrase: I would look for “Paper Trails” to back up the “People Trails.” ChatGPT seemed overeager and insecure. It spoke in buzzwords and generalizations. The approach it laid out seemed very time-consuming (including building a fact-checking grid where each sentence was broken apart and diagrammed). It offered to show me how it would “mark it up,” exactly “like a professional fact checker.” It then generated a paragraph that didn’t exist in the story. We tried that for a while, and then it offered to check a real paragraph for me. I gave it a fairly googleable selection, but it didn’t actually check any facts. None of the models did. They all gave me a plan of attack, told me exactly what they would do, and then stopped short of actually doing it. “I don’t think it’s an option to sit AI out as some kind of fad or something that won’t dramatically impact how people find information,” says Angie Holan, head of the International Fact-Checking Network, a Poynter initiative that connects more than 170 fact-checking organizations across the world. Holan says she finds herself more comfortable with AI than some of her colleagues are. If a model leads you to authoritative sources that you are able to verify yourself, there you go, she says. Fact-checkers, journalists, librarians, archivists—all should be engaging with these models, learning how they’re put together: “That way you can understand the strengths and weaknesses of these tools,” she says. I don’t disagree. In fact, the more time I spend with AI, the m