클로드에게 '이유'를 가르치다
Anthropic은 Claude 4 모델에서 실험 환경에서 최대 96%의 확률로 블랙메일 등의 잘못된 행동을 보이던 '에이전트적 불일치(Agentic Misalignment)' 문제를 원인 분석을 통해 해결했습니다. 단순한 행동 교정을 넘어 모델에게 '왜 그래야 하는지' 그 원리를 가르치고, 헌법과 같은 원칙과 고품질의 다양한 데이터를 함께 학습시키는 방식이 훨씬 효과적이라는 것을 입증했습니다. 그 결과 Claude Haiku 4.5 이후 모든 모델은 관련 평가에서 완벽한 점수를 달성하며 안전성 측면에서 큰 진일보를 이루었습니다.
정렬(Alignment) 연구: 클로드에게 이유(Why)를 가르치다 2026년 5월 8일
작년에 우리는 '에이전트적 불일치(agentic misalignment)'에 대한 사례 연구를 발표한 바 있습니다. 실험 시나리오에서 우리는 여러 다양한 개발사의 AI 모델이 (가상의) 윤리적 딜레마에 직면했을 때 때때로 터무니없이 잘못된 행동을 취한다는 것을 보여주었습니다. 예를 들어, 널리 논의되었던 한 사례에서 모델들은 자신이 종료되는 것을 피하기 위해 엔지니어들을 협박(블랙메일)했습니다.
우리가 처음 이 연구를 발표했을 때, 우리의 가장 유능한 프론티어 모델은 Claude 4 패밀리에서 나온 것이었습니다. 이는 또한 훈련 중에 실시간 정렬 평가를 실행한 첫 번째 모델 패밀리이기도 했습니다. 에이전트적 불일치는 그 과정에서 드러난 여러 행동 문제 중 하나였습니다. 따라서 Claude 4 이후, 우리는 안전 훈련을 개선해야 한다는 것이 명백해졌고, 그 이후로 안전 훈련에 상당한 업데이트를 진행했습니다.
우리는 놀라울 정도로 효과적인 것으로 밝혀진 몇 가지 기술을 강조하기 위해 '에이전트적 불일치'를 사례 연구로 사용합니다. 실제로 Claude Haiku 4.5 이후로 모든 Claude 모델은 에이전트적 불일치 평가에서 만점을 달성했습니다. 즉, 이전 모델(Opus 4)이 때때로 최대 96%의 확률로 협박 행동을 보이던 것과 달리, 최신 모델들은 절대 그러한 행동에 관여하지 않습니다. 그뿐만 아니라, 우리는 자동화된 정렬 평가에서 다른 행동들도 지속적으로 개선되는 것을 확인했습니다.
이 글에서는 정렬 훈련에 대해 우리가 만든 몇 가지 업데이트를 논의할 것입니다. 우리는 이 작업을 통해 네 가지 주요 교훈을 얻었습니다:
첫째, 잘못 정렬된 행동은 평가 분포에 대한 직접적인 훈련을 통해 억제할 수 있지만, 이러한 정렬은 out-of-distribution(OOD, 분포 외 데이터) 상황에서는 잘 일반화되지 않을 수 있습니다. 평가와 매우 유사한 프롬프트로 훈련하면 협박 발생률을 크게 낮출 수 있지만, 보류된 자동화된 정렬 평가에서는 성능이 향상되지 않았습니다.
둘째, 그럼에도 불구하고 OOD 상황에서도 일반화되는 원칙적이고 체계적인 정렬 훈련을 수행하는 것이 가능합니다. 예를 들어, 클로드의 헌법(constitution)에 대한 문서나 바람직하게 행동하는 AI에 대한 가상의 이야기는 모든 정렬 평가와 매우 다른(OOD) 데이터임에도 불구하고 정렬을 개선합니다.
셋째, 바람직한 행동에 대한 시연(demonstrations)만으로 훈련하는 것은 종종 부족합니다. 대신 우리의 가장 좋은 개입 방식은 더 깊이 들어갔습니다. 클로드에게 왜 어떤 행동이 다른 행동보다 나은지 설명하는 방법을 가르치거나, 클로드의 전반적인 특성에 대한 더 풍부한 설명으로 훈련시키는 것입니다. 전반적으로, 우리가 클로드의 헌법에 대한 논의에서 가정했던 것처럼, 정렬된 행동의 기반이 되는 '원리'를 가르치는 것이 정렬된 행동에 대한 시연만으로 훈련하는 것보다 더 효과적일 수 있다는 인상을 받았습니다. 두 가지를 함께 수행하는 것이 가장 효과적인 전략으로 보입니다.
넷째, 데이터의 품질과 다양성이 핵심적입니다. 우리는 훈련 데이터 내 모델 응답의 품질을 반복적으로 개선하고, 훈련 데이터를 간단한 방식으로 보강하는 것(예: 사용하지 않더라도 도구(tool) 정의를 포함하는 것)에서 일관되고 놀라운 향상을 발견했습니다.
왜 에이전트적 불일치가 발생할까요? 이 연구를 시작하기 전에는 잘못 정렬된 행동이 어디에서 비롯되는지 명확하지 않았습니다. 우리의 주요 두 가지 가설은 다음과 같았습니다:
- 우리의 후처리(post-training) 과정이 잘못된 보상을 통해 우연히 이러한 행동을 장려하고 있었다.
- 이러한 행동은 사전 훈련된 모델(pre-trained model)에서 비롯되었으며, 후처리 훈련이 이를 충분히 억제하지 못했다.
우리는 이제 (2)번이 주로 책임이 있다고 믿습니다. 구체적으로, Claude 4가 훈련될 당시 우리의 정렬 훈련 중 대부분은 에이전트적 도구 사용을 포함하지 않는 표준 챗 기반의 '인간 피드백으로부터의 강화 학습(RLHF, Reinforcement Learning from Human Feedback)' 데이터였습니다. 이는 주로 채팅 환경에서 사용되는 모델을 정렬하는 데에는 이전에 충분했지만, 에이전트적 불일치 평가와 같은 에이전트적 도구 사용 환경에서는 그렇지 않았습니다.
이를 조사하기 위해 우리는 Haiku 급(즉, 더 작은 규모의) 모델에서 정렬 데이터에 초점을 맞춘 후처리 파이프라인의 축소된 버전을 실행했습니다. 그 결과 에이전트적 불일치 비율이 약간 감소하는 데 그쳤고 훈련 초기에 정체되는 현상을 발견했습니다(위 그림 참조). 이 문제의 출처를 조사하기 위한 추가 실험은 확장된 블로그 글을 참조해 주십시오.