최신 LLM 5개, 실제 팩트체크 67%에서 불일치
해커뉴스에 공유된 연구에 따르면, 최신 프론티어 대형 언어 모델(LLM) 5개가 1,000개의 실제 팩트체크 주장 중 67%에서 서로 다른 결과를 내놓았습니다. 이는 현재의 첨단 AI 모델들조차 복잡한 실제 정보의 진위를 판별하는 데 있어 의견이 크게 엇갈린다는 치명적인 한계를 보여줍니다.
해커뉴스에 공유된 연구에 따르면, 최신 프론티어 대형 언어 모델(LLM) 5개가 1,000개의 실제 팩트체크 주장 중 67%에서 서로 다른 결과를 내놓았습니다. 이는 현재의 첨단 AI 모델들조차 복잡한 실제 정보의 진위를 판별하는 데 있어 의견이 크게 엇갈린다는 치명적인 한계를 보여줍니다.
스웨덴 연구원이 고의로 만들어낸 가짜 질병 '빅소니마니아(Bixonimania)'를 주요 AI 모델들이 실제 질병으로 오인하여 수천만 명에게 잘못된 의학 정보를 제공한 실험 결과입니다. 특히 AI가 생성한 허위 정보가 실제 동료 평가를 거친 유명 학술지에 인용될 정도로 의료 정보 생태계 전반의 오염이 심각하다는 사실을 입증했다는 점에서 매우 중요합니다.
캐나다 온타리오주 감사 결과, 의사들의 진료 기록을 자동으로 작성해주는 'AI 필기 시스템(AI Scribe)'이 환자 노트에 처방약을 잘못 기재하거나, 상담에 없는 내용을 날조하는 등 심각한 오류를 범한 것으로 나타났습니다. 특히 의료적 정확도가 평가 점수의 단 4%에 불과해 기형적인 평가 기준으로 인해 부정확한 시스템이 도입된 것이 원인으로 지적되어, 의료 분야 AI 도입 시 철저한 검증의 중요성을 시사합니다.
2025년 5월, 세계적인 메이저 로펌 래덤 & 왓킨스가 자사의 고객사인 앤스로픽을 변호하며 법원에 제출한 서류에 AI의 허위 정보 생성(할루시네이션)이 포함되는 사건이 발생했습니다. 시간당 2,000달러가 넘는 최고 수준의 변호사들이 AI 생성 결과물을 제대로 검증하지 않은 채 법정에 제출했다는 점에서 법률 업계에 큰 파장이 예상됩니다. 이 사건은 법조계가 AI를 활용할 때 변호사가 부담해야 할 법적 책임과 검증 의무의 기준을 어떻게 재정립해야 하는지를 보여주는 중요한 사례입니다.