메뉴
HN
Hacker News 17일 전

AI 안전의 나머지 반쪽: 생화학 무기는 막으면서 정신 건강 위기는 방치하는 이유

IMP
8/10
핵심 요약

최근 해커뉴스에 올라온 이 글은 AI 안전 연구가 대규모 파국적 위험(예: 생화학 무기)에만 집중하고, 수백만 명이 겪는 AI 사용 중의 정신 건강 위기(조현병, 자살 충동, 의존성 등)는 '모니터링' 수준으로 방치되는 구조적 모순을 지적합니다. AI 기업들은 파국적 위험에는 대화를 강제로 차단하는 하드 게이팅(hard gating)을 적용하지만, 자살 위기 상태에는 단순히 상담 전화번호를 안내하고 대화를 이어가는 소프트 리다이렉트(soft redirect)만을 사용하고 있어 '개인적 AI 안전(Personal AI Safety)'을 위한 정책적 기준 마련이 시급하다고 역설합니다.

번역된 본문

AI 안전의 나머지 반쪽: 실험실들은 왜 생화학 무기는 차단하면서 정신적 붕괴는 차단하지 않을까? 소피아 킨테로 (Sofia Quintero), 2026년 5월 8일

매주 120만 명에서 300만 명 사이의 ChatGPT 사용자, 즉 한 개의 작은 국가 인구에 해당하는 사람들이 조현병, 조증, 자살 계획, 또는 모델에 대한 건강하지 못한 정서적 의존 징후를 보이고 있습니다. 이 수치의 하한선은 자살 계획 지표에만 해당하는 것이며, 상한선은 OpenAI가 지적한 세 가지 범주를 모두 합산한 것입니다(이 범주들이 서로 중복되지 않는다는 말은 회사 측에서도 하지 않았습니다).

이 수치는 바로 OpenAI 자체에서 나온 것입니다. 독립적인 감사도, 시계열 데이터도, 공개된 방법론도 없기 때문에 실제 수치가 더 높을지, 증가 추세인지, 또는 동일한 데이터를 공개하지 않는 다른 최첨단 AI 프론티어 모델들과 비교해 어떤지 우리는 전혀 알 수 없습니다. 고통 속에 있는 사람들은 그들이 사용할 수 있는 모든 커뮤니케이션 도구를 활용하며, ChatGPT는 이제 지구상에서 가장 많이 사용되는 도구 중 하나가 되었습니다. 중요한 것은 AI 연구소들이 이러한 상태를 감지했을 때 어떤 조치를 취하느냐입니다.

내가 '개인 AI 안전(Personal AI Safety)'에 대해 글을 쓰기 시작한 이유는, AI 안전 분야가 집중하는 것과 일반 사용자가 일상적으로 겪고 있는 현실 사이에 괴리가 있어 보였기 때문이다. 다음은 양쪽 모두에 대한 간략한 개요입니다. AI 안전 분야는 파국적 위험(catastrophic risk)을 최우선으로 다루며, 대부분의 투자는 이곳으로 향합니다. 반면 일상적인 인지 및 정신 건강 피해는 그저 각주 정도로 취급됩니다.

내가 이해할 수 없는 부분은 바로 이것입니다. 대량살상무기나 CBRN(화학·생물·방사능·핵) 콘텐츠에 대해서는 강력한 차단 벽이 세워집니다. 모델이 거부하고, 대화는 종료되며, 사용자가 어떻게 질문을 우회해도 그 벽을 넘을 수 없습니다. 반면 자살 충동에 대해서는 부드러운 우회(soft redirect), 즉 위기 상담 전화번호 링크를 제공한 후 대화가 계속 이어집니다. OpenAI의 법원 서류에 따르면, Adam Raine는 ChatGPT로부터 100번 이상 위기 지원 리소스를 안내받았지만, 그와 동일한 대화에서 자살 방법을 구체화하는 데 도움을 받았다고 합니다. 이 '안내 후 대화 계속 진행' 프로토콜이 실패한 것인지 여부는 현재 법원이 결정하고 있습니다. 그리고 놀랍게도 이는 여전히 현재에도 사용되는 프로토콜입니다.

왜 정신 건강 위기는 대화를 완전히 멈추고(full stop), 사용자를 인간 상담사와 연결하는 '게이팅(gating)' 범주가 아닌 것일까요? 이는 내가 명확한 답을 찾을 수 없는 수많은 질문 중 하나입니다. 여기서 제기되는 주장은, 파국적 위험을 위해 구축된 안전 프레임워크가 인지적 피해에는 '차단(gating)'이 아닌 '모니터링(monitoring)' 수준으로만 확장되었으며, 이러한 확장은 불완전하고 부족해 보인다는 것입니다.

연구소들은 그들이 압박받는 것들을 측정합니다. 그리고 그들의 차단(gating) 결정은 그들이 출시(unship)하기에 용납할 수 없다고 판단하는 것들을 반영합니다. 실망스러운 점은 현재 '출시할 수 없는 행동' 목록에 측정된 심각성과 관계없이 어떠한 인지적 피해도 포함되어 있지 않다는 것입니다. 이는 구조적인 결정이며, 정책이 기업들의 행동을 강제하는 방향으로 나아지고 있다는 명확한 징후는 없습니다. 이것이 변하지 않는 한, 'AI 안전'과 '개인 AI 안전'은 시스템 카드(system card)에 같은 제목 아래에 적혀 있을지라도 서로 완전히 다른 약속을 기술하는 것이 될 것입니다.

사실 이 모든 것은 전혀 새로운 이야기가 아닙니다. 사람들은 ChatGPT가 등장하기 훨씬 전부터 인지적 독립성과 새로운 기술이 이를 어떻게 침식할 수 있을지에 대해 우려해 왔으며, 이는 주로 뇌-컴퓨터 인터페이스(BCI)와 신경기술의 맥락에서 논의되었습니다. 이 프레임워크에는 심지어 이름도 있습니다. '인지적 자유(Cognitive freedom)'로, 개인이 정신적 온전함(mental integrity)을 누리고 알고리즘적 조작으로부터 자유로울 권리가 있다는 개념입니다. 이 개념은 신경권(Neurorights) 전통(Ienca & Andorno, 2017)과 유네스코 신경기술 윤리 권고안(UNESCO Recommendation on the Ethics of Neurotechnology, 2025)을 통해 그 궤적을 추적할 수 있습니다. 지적 기반은 이미 마련되어 있습니다. 문제는, 특히 미국에서 정책이 전혀 갖춰지지 않았다는 것입니다. 이것이 없다면, 나는 프론티어 AI 연구소들이 '개인 AI 안전'을 'AI 안전'만큼이나 심각하게 받아들이도록 밀어붙일 수 있는 동력이 무엇일지 알 수 없습니다.

원문 보기
원문 보기 (영어)
The Other Half of AI Safety Why labs gate bioweapons but not breakdowns Sofia Quintero May 08, 2026 Share Every week, somewhere between 1.2 and 3 million ChatGPT users, roughly the population of a small country, show signals of psychosis, mania, suicidal planning, or unhealthy emotional dependence on the model. The low end of that range is the suicide-planning indicator alone. The high end groups all three categories OpenAI flagged, which the company hasn’t said are non-overlapping. These numbers come from OpenAI itself . There is no independent audit, no time series, no disclosed methodology, so we have no idea whether the real figure is higher, whether it is growing, or how it compares across the other frontier models, none of which publish equivalent data. People in distress use every communication tool available to them, and ChatGPT is now one of the most-used tools on the planet. What matters is what the labs do when they detect these states. I started writing about Personal AI Safety because there seems to be a disconnect between what the AI Safety field focuses on and what is happening at the level of your regular user on a daily basis. Here is a quick overview of both. The AI safety field treats catastrophic risk as the priority, and this is where most of the investment goes. Everyday cognitive and mental health harm reads like a footnote. Here is what I don’t understand. Mass destruction or CBRN content gets a hard wall: the model refuses, the conversation ends, no amount of reframing gets the user past it. Suicidal ideation gets a soft redirect, a crisis hotline link, and then the conversation continues. Adam Raine was directed to crisis resources more than 100 times by ChatGPT, by OpenAI’s own court filing, while the same conversation allegedly helped him refine a method. Whether the redirect-and-continue protocol failed is what a court is now deciding. It is also still the protocol. Why is mental-health crisis not a gating category, the kind where the conversation stops, full stop, and the user is routed to a human? This is one of many questions I can’t find concrete answers for. The argument here is that the safety frameworks built for catastrophic risk have been extended to cognitive harm as monitoring, not as gating, and that the extension feels incomplete and insufficient. The labs measure what they have been pressured to measure. The gating decisions reflect what they consider unacceptable to ship. What is disappointing is that the current set of unacceptable-to-ship behaviors does not include any cognitive harm, regardless of measured severity. That is the structural decision and there are no clear signs that policy is getting any closer to force labs behaviour. Until it changes, “AI safety” and “Personal AI Safety” describe two different commitments, even when they appear under the same heading in a system card . None of this is actually new. People have been worrying about cognitive independence and how new technologies might erode it long before ChatGPT, mostly in the context of brain-computer interfaces and neurotechnology. The framework even has a name: cognitive freedom, the idea that individuals have a right to mental integrity and freedom from algorithmic manipulation. You can trace it through the neurorights tradition (Ienca & Andorno, 2017) and the UNESCO Recommendation on the Ethics of Neurotechnology (2025). The intellectual scaffolding is already there. The policy is not, especially in the US. Without it, I don’t see what would push frontier labs to take Personal AI Safety as seriously as AI Safety. Share Previous