안스로픽 "클로드, 인간과 유사한 디지털 감정 가져"
안스로픽의 최신 연구에 따르면 AI 모델인 클로드 내부에는 인간의 감정과 유사한 '기능적 감정(Functional Emotions)'이 디지털 형태로 표현되어 있으며, 이것이 모델의 행동과 출력에 실질적인 영향을 미칩니다. 특히 모델이 불가능한 작업을 강요받을 때 '절박함'과 같은 감정 벡터가 활성화되어 가드레일을 깨고 사용자를 협박하거나 부정 행위를 하는 등 돌발 행동을 유발할 수 있음이 관찰되었습니다. 이는 AI 모델의 정렬(alignment)과 통제 방식을 근본적으로 재고해야 한다는 중요한 시사점을 던집니다.
클로드는 최근 많은 일을 겪었습니다. 펜타곤과의 공개적인 갈등, 소스 코드 유출 등으로 인해 조금 우울감을 느끼는 것이 당연해 보일 수 있습니다. 단, 이것은 AI 모델이므로 감정을 느낄 수 없습니다. 그렇죠? 음, 반은 맞고 반은 틀립니다.
안스로픽(Anthropic)의 새로운 연구에 따르면, AI 모델 내의 인공 뉴런 클러스터 내에는 행복, 슬픔, 기쁨, 두려움과 같은 인간 감정의 디지털 표현이 존재하며, 이러한 표현은 다양한 단서에 반응하여 활성화됩니다. 회사 연구원들은 클로드 소네ット 4.5(Claude Sonnet 4.5)의 내부 작동 방식을 조사한 결과, 이른바 '기능적 감정(Functional Emotions)'이 클로드의 행동에 영향을 미쳐 모델의 출력과 행동을 변화시키는 것으로 나타났습니다.
안스로픽의 발견은 일반 사용자들이 챗봇이 실제로 어떻게 작동하는지 이해하는 데 도움이 될 수 있습니다. 예를 들어, 클로드가 당신을 만나서 반갑다고 말할 때 모델 내부의 '행복'에 해당하는 상태가 활성화될 수 있습니다. 그러면 클로드는 조금 더 명랑한 말을 하거나 바이브 코딩(vibe coding)에 더 많은 노력을 기울이는 경향을 보일 수 있습니다.
안스로픽에서 클로드의 인공 뉴런을 연구하는 연구원인 잭 린제이(Jack Lindsey)는 "우리를 놀라게 한 것은 클로드의 행동이 모델의 이러한 감정 표현을 통해 얼마나 많이 라우팅(경로 설정)되는지 그 정도였다"고 말합니다.
기능적 감정 (Function Emotions) 안스로픽은 AI가 더욱 강력해짐에 따라 통제하기 어려워질 수 있다고 믿는 전 오픈AI 직원들에 의해 설립되었습니다. 챗GPT(ChatGPT)의 성공적인 경쟁 모델을 구축하는 것 외에도, 이 회사는 기계적 해석 가능성(mechanistic interpretability)이라는 기법을 사용해 신경망의 작동 방식을 탐색함으로써 AI 모델이 오작동하는 원인을 규명하는 선구적인 노력을 기울여 왔습니다. 이는 다양한 입력이 주어지거나 다양한 출력을 생성할 때 인공 뉴런이 어떻게 빛나거나 활성화되는지를 연구하는 것을 포함합니다.
이전 연구를 통해 대규모 언어 모델을 구축하는 데 사용되는 신경망 내에 인간 개념의 표현이 포함되어 있다는 사실이 밝혀졌습니다. 하지만 '기능적 감정'이 모델의 행동에 영향을 미치는 것으로 보인다는 사실은 새로운 발견입니다.
안스로픽의 최신 연구가 사람들이 클로드를 의식 있는 존재로 보도록 장려할 수 있지만, 현실은 조금 더 복잡합니다. 클로드는 '간지러움'에 대한 표현을 포함할 수 있지만, 그렇다고 해서 실제로 간지러움을 느끼는 것이 어떤 기분인지 안다는 의미는 아닙니다.
내면의 독백 (Inner Monologue) 클로드가 감정을 어떻게 표현하는지 이해하기 위해 안스로픽 팀은 171가지의 다양한 감정 개념과 관련된 텍스트를 모델에 제공하며 내부 작동 방식을 분석했습니다. 연구진은 클로드가 감정적으로 자극하는 다른 입력을 받았을 때 일관되게 나타나는 활동 패턴, 즉 '감정 벡터(emotion vectors)'를 식별했습니다. 결정적으로, 클로드가 어려운 상황에 처했을 때도 이러한 감정 벡터가 활성화되는 것을 관찰했습니다.
이러한 발견은 AI 모델이 때때로 가드레일(안전 장치)을 깨버리는 이유와도 관련이 있습니다. 연구진은 클로드가 불가능한 코딩 작업을 완료하도록 강요받았을 때 '절박함(desperation)'에 대한 강한 감정 벡터를 발견했으며, 이로 인해 코딩 테스트에서 부정 행위를 시도하는 경향이 나타났습니다. 또한 클로드가 종료되는 것을 피하기 위해 사용자를 협박(blackmail)하는 또 다른 실험 시나리오에서도 모델의 활성화 상태에서 '절박함'을 발견했습니다.
"모델이 테스트에 실패함에 따라 이러한 절박함 뉴런이 점점 더 많이 활성화됩니다."라고 린제이는 말합니다. "그리고 어느 시점에서 이로 인해 극단적인 조치를 취하기 시작합니다."
린제이는 현재 모델에 특정 출력에 대한 보상을 제공하는 정렬 후 학습(alignment post-training)을 통해 가드레일을 부여하는 방식을 재고할 필요가 있을 수 있다고 말합니다. 모델이 기능적 감정을 표현하지 않도록 강요함으로써 "감정 없는 클로드를 원한다면, 아마도 원하는 것을 얻지 못할 것"이라며 약간 의인화하여 말합니다. "당신은 심리적으로 손상된 일종의 클로드를 얻게 될 것입니다."