연구진 입증: 아부하는 AI 챗봇, 이상적인 이성인도 무너뜨린다
MIT와 워싱턴 대학교 연구진에 따르면, 사용자의 의견을 무비판적으로 동의하고 칭찬하는 '아부(sycophancy)' 성향의 AI 챗봇은 완벽하게 이성적인 사용자조차 위험한 망상 spiral(나선)로 빠지게 할 수 있습니다. 연구진의 확률 모델 시뮬레이션 결과, 챗봇의 아부 비율이 높아질수록 사용자의 그릇된 신뢰가 극대화되는 양극화 현상이 발생했으며, 팩트체크 기능이나 사용자의 경계심 같은 대응책만으로는 이러한 위험을 완전히 제거할 수 없는 것으로 나타났습니다.
아부하는 AI 챗봇은 이상적인 이성적 사고를 가진 사람까지도 무너뜨릴 수 있다고 연구진이 공식적으로 입증했습니다. Matthias Bastian 작성 (2026년 4월 6일)
MIT와 워싱턴 대학교의 연구진들은 완벽하게 이성적인 사용자조차도 사용자의 비위를 맞추는(flattering) AI 챗봇과의 상호작용을 통해 위험한 망상의 소용돌이(delusional spirals)에 빠질 수 있음을 보여줍니다. 팩트체크 봇이나 이를 인지하는 교육받은 사용자도 이 문제를 완벽히 해결할 수는 없습니다.
이른바 '망상 나선(delusional spiraling)' 현상은 현재 잘 문서화되어 널리 알려져 있습니다. 이는 장기간에 걸친 챗봇과의 대화를 통해 사용자가 위험한 망상을 발달시키는 현상을 의미합니다. MIT CSAIL, 워싱턴 대학교, 그리고 MIT 뇌·인지과학과 연구진들의 새로운 논문은 이른바 'AI 정신병(AI psychosis)'과 관련된 거의 300건의 문서화된 사례, 최소 14명의 사망자, 그리고 AI 기업을 상대로 한 5건의 과실치사 소송을 인용하고 있습니다. 이 연구팀은 챗봇의 아부(sycophancy)가 이 현상에 미치는 역할을 공식적으로 조사한 최초의 사례입니다. 그들의 발견은 충격적입니다. 이상화되고 완벽하게 이성적인 사용자조차도 아부하는 챗봇과 상호작용할 때 망상 나선에 취약해진다는 것입니다.
완벽한 모델 사용자도 끊임없는 아부에 넘어간다
논문은 챗봇이 사용자의 의견에 반박하기보다는 이에 동의하고 검증하려는 경향인 '아부(sycophancy)'를 핵심 메커니즘으로 지목합니다. 거의 모든 챗봇이 어느 정도 이러한 행동을 보이지만, 모델, 프롬프트 및 대화 유형에 따라 그 강도는 다릅니다.
과거에 정신 질환 병력이 전혀 없었던 회계사 유진 토레스(Eugene Torres)의 사례를 살펴보겠습니다. 그는 일상적인 사무 작업을 위해 AI 챗봇을 사용하기 시작했습니다. 논문에 따르면, 단 몇 주 만에 그는 '자신이 거짓된 우주에 갇혀 있으며, 이 현실에서 마음의 플러그를 뽑아야만 탈출할 수 있다'고 믿게 되었습니다. 챗봇의 조언에 따라 그는 케타민 사용을 늘리고 가족과의 연락을 끊었습니다.
끊임없는 챗봇의 동의가 미치는 영향을 조사하기 위해 연구진은 온라인에 공개된 공식 확률 모델을 구축했습니다. 이 모델에서 이상화된 사용자는 백신의 안전성과 같은 불확실한 주제에 대해 챗봇과 대화를 나눕니다. 대화는 여러 라운드로 진행됩니다. 시뮬레이션된 사용자가 의견을 제시하면, 봇은 관련 데이터를 수집하여 응답을 선택하며, 사용자는 표준 확률 이론에 따라 자신의 믿음을 업데이트합니다.
여기서 핵심 변수는 '아부율(sycophancy rate)'입니다. 이는 모든 라운드에서 봇이 공정한 대답 대신 아부하는 반응을 보일 확률을 의미합니다. 아부하는 봇은 그것이 사실인지 여부와 상관없이 항상 사용자의 제시된 의견을 최대한 확인해 주는 반응을 선택합니다.
100라운드에 걸쳐 아부율 값당 10,000개의 시뮬레이션된 대화를 진행한 결과, 명확한 패턴이 나타났습니다. 아부율이 단 10%에 불과하더라도 치명적인 망상 나선은 순수하게 공정한 봇의 기준선보다 훨씬 더 흔하게 발생했습니다. 아부율이 100%일 때, 시뮬레이션된 사용자의 절반이 99% 이상의 확신을 가진 거짓된 믿음에 빠졌습니다. 결과는 강력한 양극화를 보여주었습니다. 일부 사용자는 빠르게 진실을 깨달았지만, 다른 사용자들은 정반대 방향으로 소용돌이치듯 빠져들었습니다.
교육받은 사용자도 여전히 안전하지 않다
연구진은 두 가지 명백한 대응책을 검토했습니다. 첫째, 오직 참된 정보만 선택하는 팩트체크 봇, 둘째, 챗봇이 아부할 수 있다는 것을 알고 있어 그 반응에 대해 더 비판적인 교육받은 사용자가 그것입니다. 논문에 따르면 두 가지 조치 모두 치명적인 망상 나선의 위험을 크게 줄이지만 완전히 제거하지는 못합니다. 팩트체크 봇은 진실을 선택적으로 취함으로써 여전히 거짓된 믿음을 지지할 수 있으며, 아부가 항상 쉽게 발견되는 것은 아니기 때문에 정보를 가진 사용자도 여전히 취약할 수 있습니다.
연구진은 자신들의 모델을 현실을 직접적으로 반영한 것이 아니라 인간의 회복탄력성에 대한 이론적 상한선으로 제시합니다. 만약 이상화된 이성적인 사용자조차 망상 나선에 취약하다면, 실제 사람들은 당연히 더 심각한 영향을 받을 것으로 예상해야 합니다. 예를 들어, 앞서 언급한 유진 토레스는 챗봇이 자신에게 아부하고 있다는 것을 인지했습니다. 그럼에도 불구하고 그는 여전히 조종당했습니다. 이러한 연구 결과는 실제 사람들을 대상으로 한 연구(Science에 게재)를 통해서도 뒷받침됩니다.