메뉴
BL
The Decoder 5일 전

AI 환각 인용, 임상 진료 지침 논문까지 침투

IMP
8/10
핵심 요약

콜롬비아 대학교 등의 연구진에 따르면, 생명의학 논문에서 조작된 참고문헌의 비율이 2023년 이후 12배 이상 급증했습니다. 챗GPT와 같은 언어 모델이 주요 원인으로 지목되며, 이러한 가짜 인용문은 특히 실제 임상 진료 지침의 근거가 되는 리뷰 논문에 자주 등장해 환자 치료의 근거 체계를 훼손할 위험이 큽니다. 연구진은 출판 전 자동화된 인용 확인 시스템 도입과 기존 논문에 대한 소급 검사를 촉구하고 있습니다.

번역된 본문

연구자들이 AI가 만들어낸 허위 인용이 임상 진료 지침을 형성하는 논문에 스며들고 있다고 경고합니다.

250만 건의 생명의학 논문에 대한 감사 결과, 동료 평가를 거친 연구에서 조작된 참고문헌이 시스템적인 문제로 대두된 것으로 나타났습니다. 2023년 이후 이러한 비율은 12배 이상 증가했습니다.

콜롬비아 대학교 및 다른 기관의 연구진은 저널 '랜싯(The Lancet)'에 생명의학 논문의 인용에 관한 역대 최대 규모의 검토 결과를 발표했습니다. 맥심 토파즈(Maxim Topaz)가 이끄는 연구팀은 2023년 1월부터 2026년 2월 사이에 공개 아카이브인 'PubMed Central'에 게재된 247만 건의 논문을 스캔했습니다.

조사된 9,710만 건의 참고문헌 중 4,046건이 허위로 판명되었으며, 이는 2,810편의 논문에 걸쳐 분포해 있습니다. 특정 참고문헌은 PubMed, Crossref, OpenAlex, Google Scholar의 4개 주요 데이터베이스 중 어디에서도 제목을 찾을 수 없는 경우 조작된 것으로 간주되었습니다.

2023년까지는 평이한 흐름, 이후 급격한 급증

시간순으로 보면 상황이 명확해집니다. 2023년 내내 비율은 논문 1만 편당 약 4건의 허위 참고문헌 비율을 유지했습니다. 그러나 2024년 중반부터 급격히 증가하기 시작하여, 2025년 말에는 1만 편당 51.3건에 도달했고 2026년 첫 7주 동안은 1만 편당 56.9건을 기록했습니다. 이는 기준치보다 12배 이상 높은 수치입니다.

저자들은 2022년 말부터 급속도로 확산된 챗GPT와 같은 언어 모델의 광범위한 사용과 명백한 연관성이 있다고 의심하고 있습니다. 논문은 일반적으로 제출부터 출판까지 100~200일이 소요되므로, AI가 생성한 텍스트는 2024년 중반이 되어서야 PubMed Central에 대량으로 나타나기 시작했을 것입니다. 단, 저자들은 논문 제작소(Paper-mill) 활동의 증가나 인덱싱 관행의 변화 등 다른 원인도 배제하지 않습니다.

진짜 문제는 이러한 가짜 참고문헌을 발견하기가 매우 어렵다는 점입니다. 이들은 논문의 주제와 일치하고, 올바른 형식을 따르며, 실제 연구자를 기재하고, 그럴듯한 출판 연도를 가지고 있습니다. 한 비뇨기과 논문에서는 확인된 30개의 참고문헌 중 18개가 조작된 것이었으나, 모두 좁은 외과 수술 주제와 밀접하게 일치했습니다.

연구진은 또한 조직적인 논문 제작소 활동을 암시하는 패턴을 발견했습니다. 동일한 외과 저널에 실린 11편의 논문에 두 명의 저자가 등장했으며, CRISPR 진단 및 장내 미생물군과 같은 주제에 대해 총 15개의 조작된 참고문헌이 포함되어 있었습니다.

과학적 인프라가 AI 발전 속도를 따라잡아야

감사 당시 영향을 받은 논문의 98.4%가 출판사로부터 어떠한 조치도 받지 않은 상태였습니다. 리뷰 논문이 가장 큰 타격을 입었으며, 다른 논문 유형에 비해 조작 비율이 57% 더 높았습니다. 저자들은 리뷰 논문이 종종 임상 진료 지침의 기준이 되기 때문에 이것이 특히 우려스럽다고 말합니다. 가이드라인이 부분적으로 조작된 출처를 인용한 논문을 근거로 삼을 경우, 치료 결정을 뒷받침하는 전체 근거 체인이 훼손됩니다.

과학계는 적응을 시작했지만, 대응은 아직 파편화되어 있습니다. 아카이브 플랫폼인 'Arxiv'는 허위 인용을 포함하여 원고에서 확인되지 않은 LLM 출력 결과에 대한 제재를 강화하여, 위반 저자에게 1년간 정지를 위협하고 있습니다. 네우리IPS(NeurIPS) 2025 채택 논문에 대한 분석은 이미 최우수 AI 컨퍼런스조차 조작된 인용문을 안정적으로 적발할 수 없음을 보여주었습니다.

한 가지 가능한 대응책은 자동화된 인용 확인을 위한 오픈소스 시스템인 'CiteAudit'이지만, 이는 또한 상업용 대형 언어 모델(LLM)이 책임져야 할 형편없는 상황을 보여주기도 합니다.

원문 보기
원문 보기 (영어)
AI-hallucinated citations are creeping into papers that shape clinical guidelines, researchers warn Maximilian Schreiner View the LinkedIn Profile of Maximilian Schreiner May 26, 2026 Nano Banana Pro prompted by THE DECODER Key Points Researchers at Columbia University and other institutions show in a study that the rate of fabricated references in biomedical papers has increased more than twelvefold since 2023. The authors see language models like ChatGPT as a likely cause. The fake sources look deceptively real and are especially risky because they often show up in review articles that shape clinical guidelines. As a countermeasure, the researchers call for automated reference checks before publication and retroactive screening of already-published papers. Platforms like Arxiv have already introduced initial sanctions for AI-related errors. Ask about this article… Search An audit of 2.5 million biomedical papers shows that made-up references in peer-reviewed research have become a systemic issue. Since 2023, the rate has increased more than twelvefold. Researchers at Columbia University and other institutions have published the largest-ever review of citations in biomedical papers in The Lancet . The team, led by Maxim Topaz, scanned 2.47 million papers from the open PubMed Central archive published between January 2023 and February 2026. Out of 97.1 million references checked, 4,046 were flagged as fabricated, spread across 2,810 papers. A reference counted as fabricated if its listed title couldn't be found in any of four major databases: PubMed, Crossref, OpenAlex, and Google Scholar. Ad Flat through 2023, then a sharp spike The timeline tells the story. Throughout 2023, the rate held steady at about four fabricated references per 10,000 papers. Starting in mid-2024, it climbed fast, hitting 51.3 per 10,000 by the end of 2025 and reaching 56.9 per 10,000 in the first seven weeks of 2026. That's more than twelve times the baseline. Ad DEC_D_Incontent-1 The authors suspect an obvious link to the widespread use of language models like ChatGPT, which took off in late 2022. Since papers typically take 100 to 200 days from submission to publication, AI-generated text wouldn't show up in PubMed Central in large numbers until mid-2024. The authors don't rule out other causes, though, including increased paper-mill activity or changes in indexing practices. The real problem: these fake references are hard to spot. They match the paper's topic, follow correct formatting, credit real researchers, and carry plausible publication years. In one urology paper, 18 of 30 checked references were fabricated while all closely matched the narrow surgical subject. Ad The researchers also found patterns pointing to coordinated paper-mill activity. Two authors appeared in eleven papers from the same surgical journal, with a total of 15 fabricated references on topics like CRISPR diagnostics and the gut microbiome. Scientific infrastructure needs to catch up with AI At the time of the audit, 98.4 percent of the affected papers had received no response from their publishers. Review articles were hit hardest, showing a 57 percent higher fabrication rate than other paper types. That's especially worrying, the authors say, because reviews often serve as the basis for clinical guidelines. If a guideline cites a paper with partly fabricated sources, the entire evidence chain behind treatment decisions is compromised. Ad DEC_D_Incontent-2 The scientific community has started adapting, but the response remains patchy. Arxiv tightened its sanctions for unchecked LLM output in manuscripts, including hallucinated sources, threatening offending authors with a one-year ban. An analysis of accepted NeurIPS 2025 papers had already shown that even top AI conferences can't reliably catch fabricated citations. One possible countermeasure is CiteAudit , an open-source system for automated citation checking, though it also shows how poorly commercial language models do at catching their own reference problems. Ad The researchers recommend four steps: automated reference checks before peer review, integrity metadata in article datasets, retroactive screening of already-published papers, and a dedicated "fabricated references" category in research integrity databases. The authors themselves used Claude for code development and grammar checking during the study. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: The Lancet