AI 환각 인용, 임상 진료 지침 논문까지 침투
콜롬비아 대학교 등의 연구진에 따르면, 생명의학 논문에서 조작된 참고문헌의 비율이 2023년 이후 12배 이상 급증했습니다. 챗GPT와 같은 언어 모델이 주요 원인으로 지목되며, 이러한 가짜 인용문은 특히 실제 임상 진료 지침의 근거가 되는 리뷰 논문에 자주 등장해 환자 치료의 근거 체계를 훼손할 위험이 큽니다. 연구진은 출판 전 자동화된 인용 확인 시스템 도입과 기존 논문에 대한 소급 검사를 촉구하고 있습니다.
연구자들이 AI가 만들어낸 허위 인용이 임상 진료 지침을 형성하는 논문에 스며들고 있다고 경고합니다.
250만 건의 생명의학 논문에 대한 감사 결과, 동료 평가를 거친 연구에서 조작된 참고문헌이 시스템적인 문제로 대두된 것으로 나타났습니다. 2023년 이후 이러한 비율은 12배 이상 증가했습니다.
콜롬비아 대학교 및 다른 기관의 연구진은 저널 '랜싯(The Lancet)'에 생명의학 논문의 인용에 관한 역대 최대 규모의 검토 결과를 발표했습니다. 맥심 토파즈(Maxim Topaz)가 이끄는 연구팀은 2023년 1월부터 2026년 2월 사이에 공개 아카이브인 'PubMed Central'에 게재된 247만 건의 논문을 스캔했습니다.
조사된 9,710만 건의 참고문헌 중 4,046건이 허위로 판명되었으며, 이는 2,810편의 논문에 걸쳐 분포해 있습니다. 특정 참고문헌은 PubMed, Crossref, OpenAlex, Google Scholar의 4개 주요 데이터베이스 중 어디에서도 제목을 찾을 수 없는 경우 조작된 것으로 간주되었습니다.
2023년까지는 평이한 흐름, 이후 급격한 급증
시간순으로 보면 상황이 명확해집니다. 2023년 내내 비율은 논문 1만 편당 약 4건의 허위 참고문헌 비율을 유지했습니다. 그러나 2024년 중반부터 급격히 증가하기 시작하여, 2025년 말에는 1만 편당 51.3건에 도달했고 2026년 첫 7주 동안은 1만 편당 56.9건을 기록했습니다. 이는 기준치보다 12배 이상 높은 수치입니다.
저자들은 2022년 말부터 급속도로 확산된 챗GPT와 같은 언어 모델의 광범위한 사용과 명백한 연관성이 있다고 의심하고 있습니다. 논문은 일반적으로 제출부터 출판까지 100~200일이 소요되므로, AI가 생성한 텍스트는 2024년 중반이 되어서야 PubMed Central에 대량으로 나타나기 시작했을 것입니다. 단, 저자들은 논문 제작소(Paper-mill) 활동의 증가나 인덱싱 관행의 변화 등 다른 원인도 배제하지 않습니다.
진짜 문제는 이러한 가짜 참고문헌을 발견하기가 매우 어렵다는 점입니다. 이들은 논문의 주제와 일치하고, 올바른 형식을 따르며, 실제 연구자를 기재하고, 그럴듯한 출판 연도를 가지고 있습니다. 한 비뇨기과 논문에서는 확인된 30개의 참고문헌 중 18개가 조작된 것이었으나, 모두 좁은 외과 수술 주제와 밀접하게 일치했습니다.
연구진은 또한 조직적인 논문 제작소 활동을 암시하는 패턴을 발견했습니다. 동일한 외과 저널에 실린 11편의 논문에 두 명의 저자가 등장했으며, CRISPR 진단 및 장내 미생물군과 같은 주제에 대해 총 15개의 조작된 참고문헌이 포함되어 있었습니다.
과학적 인프라가 AI 발전 속도를 따라잡아야
감사 당시 영향을 받은 논문의 98.4%가 출판사로부터 어떠한 조치도 받지 않은 상태였습니다. 리뷰 논문이 가장 큰 타격을 입었으며, 다른 논문 유형에 비해 조작 비율이 57% 더 높았습니다. 저자들은 리뷰 논문이 종종 임상 진료 지침의 기준이 되기 때문에 이것이 특히 우려스럽다고 말합니다. 가이드라인이 부분적으로 조작된 출처를 인용한 논문을 근거로 삼을 경우, 치료 결정을 뒷받침하는 전체 근거 체인이 훼손됩니다.
과학계는 적응을 시작했지만, 대응은 아직 파편화되어 있습니다. 아카이브 플랫폼인 'Arxiv'는 허위 인용을 포함하여 원고에서 확인되지 않은 LLM 출력 결과에 대한 제재를 강화하여, 위반 저자에게 1년간 정지를 위협하고 있습니다. 네우리IPS(NeurIPS) 2025 채택 논문에 대한 분석은 이미 최우수 AI 컨퍼런스조차 조작된 인용문을 안정적으로 적발할 수 없음을 보여주었습니다.
한 가지 가능한 대응책은 자동화된 인용 확인을 위한 오픈소스 시스템인 'CiteAudit'이지만, 이는 또한 상업용 대형 언어 모델(LLM)이 책임져야 할 형편없는 상황을 보여주기도 합니다.