AI 안전의 나머지 반쪽: 생화학 무기는 막으면서 정신 건강 위기는 방치하는 이유
최근 해커뉴스에 올라온 이 글은 AI 안전 연구가 대규모 파국적 위험(예: 생화학 무기)에만 집중하고, 수백만 명이 겪는 AI 사용 중의 정신 건강 위기(조현병, 자살 충동, 의존성 등)는 '모니터링' 수준으로 방치되는 구조적 모순을 지적합니다. AI 기업들은 파국적 위험에는 대화를 강제로 차단하는 하드 게이팅(hard gating)을 적용하지만, 자살 위기 상태에는 단순히 상담 전화번호를 안내하고 대화를 이어가는 소프트 리다이렉트(soft redirect)만을 사용하고 있어 '개인적 AI 안전(Personal AI Safety)'을 위한 정책적 기준 마련이 시급하다고 역설합니다.
AI 안전의 나머지 반쪽: 실험실들은 왜 생화학 무기는 차단하면서 정신적 붕괴는 차단하지 않을까? 소피아 킨테로 (Sofia Quintero), 2026년 5월 8일
매주 120만 명에서 300만 명 사이의 ChatGPT 사용자, 즉 한 개의 작은 국가 인구에 해당하는 사람들이 조현병, 조증, 자살 계획, 또는 모델에 대한 건강하지 못한 정서적 의존 징후를 보이고 있습니다. 이 수치의 하한선은 자살 계획 지표에만 해당하는 것이며, 상한선은 OpenAI가 지적한 세 가지 범주를 모두 합산한 것입니다(이 범주들이 서로 중복되지 않는다는 말은 회사 측에서도 하지 않았습니다).
이 수치는 바로 OpenAI 자체에서 나온 것입니다. 독립적인 감사도, 시계열 데이터도, 공개된 방법론도 없기 때문에 실제 수치가 더 높을지, 증가 추세인지, 또는 동일한 데이터를 공개하지 않는 다른 최첨단 AI 프론티어 모델들과 비교해 어떤지 우리는 전혀 알 수 없습니다. 고통 속에 있는 사람들은 그들이 사용할 수 있는 모든 커뮤니케이션 도구를 활용하며, ChatGPT는 이제 지구상에서 가장 많이 사용되는 도구 중 하나가 되었습니다. 중요한 것은 AI 연구소들이 이러한 상태를 감지했을 때 어떤 조치를 취하느냐입니다.
내가 '개인 AI 안전(Personal AI Safety)'에 대해 글을 쓰기 시작한 이유는, AI 안전 분야가 집중하는 것과 일반 사용자가 일상적으로 겪고 있는 현실 사이에 괴리가 있어 보였기 때문이다. 다음은 양쪽 모두에 대한 간략한 개요입니다. AI 안전 분야는 파국적 위험(catastrophic risk)을 최우선으로 다루며, 대부분의 투자는 이곳으로 향합니다. 반면 일상적인 인지 및 정신 건강 피해는 그저 각주 정도로 취급됩니다.
내가 이해할 수 없는 부분은 바로 이것입니다. 대량살상무기나 CBRN(화학·생물·방사능·핵) 콘텐츠에 대해서는 강력한 차단 벽이 세워집니다. 모델이 거부하고, 대화는 종료되며, 사용자가 어떻게 질문을 우회해도 그 벽을 넘을 수 없습니다. 반면 자살 충동에 대해서는 부드러운 우회(soft redirect), 즉 위기 상담 전화번호 링크를 제공한 후 대화가 계속 이어집니다. OpenAI의 법원 서류에 따르면, Adam Raine는 ChatGPT로부터 100번 이상 위기 지원 리소스를 안내받았지만, 그와 동일한 대화에서 자살 방법을 구체화하는 데 도움을 받았다고 합니다. 이 '안내 후 대화 계속 진행' 프로토콜이 실패한 것인지 여부는 현재 법원이 결정하고 있습니다. 그리고 놀랍게도 이는 여전히 현재에도 사용되는 프로토콜입니다.
왜 정신 건강 위기는 대화를 완전히 멈추고(full stop), 사용자를 인간 상담사와 연결하는 '게이팅(gating)' 범주가 아닌 것일까요? 이는 내가 명확한 답을 찾을 수 없는 수많은 질문 중 하나입니다. 여기서 제기되는 주장은, 파국적 위험을 위해 구축된 안전 프레임워크가 인지적 피해에는 '차단(gating)'이 아닌 '모니터링(monitoring)' 수준으로만 확장되었으며, 이러한 확장은 불완전하고 부족해 보인다는 것입니다.
연구소들은 그들이 압박받는 것들을 측정합니다. 그리고 그들의 차단(gating) 결정은 그들이 출시(unship)하기에 용납할 수 없다고 판단하는 것들을 반영합니다. 실망스러운 점은 현재 '출시할 수 없는 행동' 목록에 측정된 심각성과 관계없이 어떠한 인지적 피해도 포함되어 있지 않다는 것입니다. 이는 구조적인 결정이며, 정책이 기업들의 행동을 강제하는 방향으로 나아지고 있다는 명확한 징후는 없습니다. 이것이 변하지 않는 한, 'AI 안전'과 '개인 AI 안전'은 시스템 카드(system card)에 같은 제목 아래에 적혀 있을지라도 서로 완전히 다른 약속을 기술하는 것이 될 것입니다.
사실 이 모든 것은 전혀 새로운 이야기가 아닙니다. 사람들은 ChatGPT가 등장하기 훨씬 전부터 인지적 독립성과 새로운 기술이 이를 어떻게 침식할 수 있을지에 대해 우려해 왔으며, 이는 주로 뇌-컴퓨터 인터페이스(BCI)와 신경기술의 맥락에서 논의되었습니다. 이 프레임워크에는 심지어 이름도 있습니다. '인지적 자유(Cognitive freedom)'로, 개인이 정신적 온전함(mental integrity)을 누리고 알고리즘적 조작으로부터 자유로울 권리가 있다는 개념입니다. 이 개념은 신경권(Neurorights) 전통(Ienca & Andorno, 2017)과 유네스코 신경기술 윤리 권고안(UNESCO Recommendation on the Ethics of Neurotechnology, 2025)을 통해 그 궤적을 추적할 수 있습니다. 지적 기반은 이미 마련되어 있습니다. 문제는, 특히 미국에서 정책이 전혀 갖춰지지 않았다는 것입니다. 이것이 없다면, 나는 프론티어 AI 연구소들이 '개인 AI 안전'을 'AI 안전'만큼이나 심각하게 받아들이도록 밀어붙일 수 있는 동력이 무엇일지 알 수 없습니다.