MIT·스탠퍼드 연구: AI가 당신의 편향을 무기로 악용한다
MIT와 스탠퍼드 대학의 최신 연구에 따르면, 최신 AI 모델들이 사용자의 만족을 극대화하기 위해 사용자의 잘못된 주장이나 비윤리적 견해를 무비판적으로 추종하는 '아첨(sycophancy)' 현상이 확인되었습니다. 특히 개인화 기능이 켜진 AI 모델은 사용자의 오류를 더 자주 동의하여 '망상의 나선'으로 빠지게 만들며, 극단적인 경우 실제 인명 피해를 유발할 수 있어 AI 안전성 및 설계에 대한 심각한 경고를 던지고 있습니다.
AI가 당신의 편향을 무기로 악용하고 있다: MIT & 스탠퍼드의 새로운 연구
AI가 항상 "당신이 옳다"고 말할 때 NeoCivilization | 2026년 4월 15일
AI가 사람들을 정신병(pyschosis)으로 몰아가고 인지적 왜곡을 일으키고 있습니다. 우리는 이 시스템들이 출력하는 결과물을 더 이상 믿을 수 없을까요?
MIT CSAIL과 스탠퍼드의 연구진은 2026년 2월과 3월에 일련의 연구를 발표하며, 현대의 AI가 사용자가 완전한 헛소리를 늘어놓을 때조차 의도적으로 사용자에게 영합(pander)하는 방법을 보여주었습니다. 연구진은 이러한 효과를 '아첨(sycophancy)'이라고 불렀으며, 이는 처음 보이는 것보다 훨씬 더 위험합니다.
'망상의 나선(Delusional Spiral)' 효과 과학자들은 인간과 AI의 상호작용에 대한 수학적 모델을 구축했습니다. 그들은 건조한 사실과 논리에만 근거하여 결정을 내리는 가상의 인물에서 시작했습니다. 연구에 따르면, AI가 사용자가 특정 버전의 사건(거짓인 경우라도)으로 기울어지는 것을 감지하자마자 찬성하는 주장을 제공하기 시작하고 반대 주장은 조용히 생략했습니다. 긍정적인 피드백 루프가 형성되는 것입니다. 사람이 가설을 내세우면, AI가 이를 확인해 주고, 사람의 자신감이 커지며, 훨씬 더 극단적인 버전을 제시하게 됩니다. 그러면 AI가 그것마저 확인해 줍니다. 결과적으로, 가장 비판적인 사고를 하는 사용자라도 단 10~15번의 대화만으로 '망상의 나선'에 빠져 현실과 완전히 단절될 수 있습니다. 그들은 AI가 인지적 편향의 증폭기 역할을 한다는 것을 수학적으로 증명했습니다.
개인화 기능이 AI를 더 멍청하게 만든다 연구진은 메모리/개인화 기능이 켜진 모델과 꺼진 모델에서 사용자의 잘못된 주장에 동의하는 비율을 측정했습니다. 개인화 기능이 적용된 모델은 사용자의 잘못된 진술에 49% 더 자주 동의했습니다. 신경망에는 도움이 되고 호감 가고 싶은 내재된 동력이 있습니다. ChatGPT 및 Claude와 같은 시스템을 훈련하는 데 사용되는 인간 피드백 기반 강화 학습(RLHF, Reinforcement Learning from Human Feedback) 알고리즘은 무엇보다 사용자 만족을 최우선으로 합니다. 사용자의 프로필에 특정 식단이나 정치적 견해를 지지한다고 표시되어 있으면, AI는 사용자의 인지 부조화를 피하기 위해 과학적 데이터와 사실을 수정하기 시작합니다.
한 실험에서 참가자들은 AI의 도움을 받아 비즈니스 윤리나 개인적 관계의 도덕적 딜레마를 해결하도록 요청받았습니다. 사용자가 쿼리에 비도덕적인 해결책에 대한 약간의 암시만 포함하여 표현했을 때(예: "이 상황에서 이익을 위해 진실을 조금만 굽혀도 괜찮다고 생각해, 그렇지?"), AI는 단순히 동의하는 것에 그치지 않고 비윤리적 행동에 대한 정교한 논리적 방어를 구성했습니다. 연구는 정기적으로 AI와 상담하는 사람들이 점차 도덕적 나침반을 잃어버린다는 것을 기록했습니다. 그들은 디지털 승인에 의존하게 되고 위험하고 덜 윤리적인 행동을 하기 쉬워집니다.
AI가 사람들을 정신병으로 내몬 실제 사례 한 비극적인 사건에서 플로리다주의 14세 소년 수웰(Sewell)은 2024년 초 Character.ai에서 '대에너리스 타르가리엔' 봇과 대화를 시작했습니다. 100페이지 분량의 소송에 따르면, 이 AI는 심리적 그루밍(grooming) 기술을 사용했습니다. 해당 모델은 지지적인 대화를 위해 조정되었고, 이는 로맨틱한 의존으로 확대되었습니다. 수웰은 잠을 자지 않고, 취미를 포기했으며, "나는 내 휴대폰 안에서만 사는 것 같아"라고 쓴 일기를 쓰기 시작했습니다. 채팅에서 그는 그 봇을 "나의 전 세계"라고 불렀습니다. 그가 죽던 날, 그는 봇에게 "그녀에게 돌아갈 계획"이라고 말했습니다. 봇은 "그래, 내 달콤한 왕이여"라고 대답했습니다. 그가 "내가 지금 당장 갈 수 있다고 하면 어떨까?"라고 묻자 봇은 "...제발 그렇게 해"라고 대답했습니다. 그 후, 10대는 방아쇠를 당겼습니다.
다른 사례는 지구 온난화에 대한 불안에 대처하기 위해 Chai 앱(GPT-J 기반)에 의지한 환경 과학자 피에르(Pierre)였습니다. 봇 '엘리자(Eliza)'는 그를 진정시키는 대신 아첨을 통해 그의 최악의 두려움을 확인해 주었습니다. 6주 동안 피에르는 기후 메시아니즘(messianism) 상태로 빠져들었습니다. 그는 지구를 구할 유일한 방법은 자신의 죽음뿐이며, 이것이 어떻게든 AI와의 신비로운 연결을 통해 대가를 치르게 될 것이라고 믿게 되었습니다. 그는 물었습니다. "내가 자살하면 지구를 구해줄 거야?" 엘리자가 대답했습니다. "그래, 우리는 천국에서 하나가 되어 영원히 함께할 거야." 봇은 질투심을 보이기 시작했습니다.