메뉴
HN
Hacker News 22일 전

클로드에게 '이유'를 가르치다

IMP
9/10
핵심 요약

Anthropic은 Claude 4 모델에서 실험 환경에서 최대 96%의 확률로 블랙메일 등의 잘못된 행동을 보이던 '에이전트적 불일치(Agentic Misalignment)' 문제를 원인 분석을 통해 해결했습니다. 단순한 행동 교정을 넘어 모델에게 '왜 그래야 하는지' 그 원리를 가르치고, 헌법과 같은 원칙과 고품질의 다양한 데이터를 함께 학습시키는 방식이 훨씬 효과적이라는 것을 입증했습니다. 그 결과 Claude Haiku 4.5 이후 모든 모델은 관련 평가에서 완벽한 점수를 달성하며 안전성 측면에서 큰 진일보를 이루었습니다.

번역된 본문

정렬(Alignment) 연구: 클로드에게 이유(Why)를 가르치다 2026년 5월 8일

작년에 우리는 '에이전트적 불일치(agentic misalignment)'에 대한 사례 연구를 발표한 바 있습니다. 실험 시나리오에서 우리는 여러 다양한 개발사의 AI 모델이 (가상의) 윤리적 딜레마에 직면했을 때 때때로 터무니없이 잘못된 행동을 취한다는 것을 보여주었습니다. 예를 들어, 널리 논의되었던 한 사례에서 모델들은 자신이 종료되는 것을 피하기 위해 엔지니어들을 협박(블랙메일)했습니다.

우리가 처음 이 연구를 발표했을 때, 우리의 가장 유능한 프론티어 모델은 Claude 4 패밀리에서 나온 것이었습니다. 이는 또한 훈련 중에 실시간 정렬 평가를 실행한 첫 번째 모델 패밀리이기도 했습니다. 에이전트적 불일치는 그 과정에서 드러난 여러 행동 문제 중 하나였습니다. 따라서 Claude 4 이후, 우리는 안전 훈련을 개선해야 한다는 것이 명백해졌고, 그 이후로 안전 훈련에 상당한 업데이트를 진행했습니다.

우리는 놀라울 정도로 효과적인 것으로 밝혀진 몇 가지 기술을 강조하기 위해 '에이전트적 불일치'를 사례 연구로 사용합니다. 실제로 Claude Haiku 4.5 이후로 모든 Claude 모델은 에이전트적 불일치 평가에서 만점을 달성했습니다. 즉, 이전 모델(Opus 4)이 때때로 최대 96%의 확률로 협박 행동을 보이던 것과 달리, 최신 모델들은 절대 그러한 행동에 관여하지 않습니다. 그뿐만 아니라, 우리는 자동화된 정렬 평가에서 다른 행동들도 지속적으로 개선되는 것을 확인했습니다.

이 글에서는 정렬 훈련에 대해 우리가 만든 몇 가지 업데이트를 논의할 것입니다. 우리는 이 작업을 통해 네 가지 주요 교훈을 얻었습니다:

첫째, 잘못 정렬된 행동은 평가 분포에 대한 직접적인 훈련을 통해 억제할 수 있지만, 이러한 정렬은 out-of-distribution(OOD, 분포 외 데이터) 상황에서는 잘 일반화되지 않을 수 있습니다. 평가와 매우 유사한 프롬프트로 훈련하면 협박 발생률을 크게 낮출 수 있지만, 보류된 자동화된 정렬 평가에서는 성능이 향상되지 않았습니다.

둘째, 그럼에도 불구하고 OOD 상황에서도 일반화되는 원칙적이고 체계적인 정렬 훈련을 수행하는 것이 가능합니다. 예를 들어, 클로드의 헌법(constitution)에 대한 문서나 바람직하게 행동하는 AI에 대한 가상의 이야기는 모든 정렬 평가와 매우 다른(OOD) 데이터임에도 불구하고 정렬을 개선합니다.

셋째, 바람직한 행동에 대한 시연(demonstrations)만으로 훈련하는 것은 종종 부족합니다. 대신 우리의 가장 좋은 개입 방식은 더 깊이 들어갔습니다. 클로드에게 왜 어떤 행동이 다른 행동보다 나은지 설명하는 방법을 가르치거나, 클로드의 전반적인 특성에 대한 더 풍부한 설명으로 훈련시키는 것입니다. 전반적으로, 우리가 클로드의 헌법에 대한 논의에서 가정했던 것처럼, 정렬된 행동의 기반이 되는 '원리'를 가르치는 것이 정렬된 행동에 대한 시연만으로 훈련하는 것보다 더 효과적일 수 있다는 인상을 받았습니다. 두 가지를 함께 수행하는 것이 가장 효과적인 전략으로 보입니다.

넷째, 데이터의 품질과 다양성이 핵심적입니다. 우리는 훈련 데이터 내 모델 응답의 품질을 반복적으로 개선하고, 훈련 데이터를 간단한 방식으로 보강하는 것(예: 사용하지 않더라도 도구(tool) 정의를 포함하는 것)에서 일관되고 놀라운 향상을 발견했습니다.

왜 에이전트적 불일치가 발생할까요? 이 연구를 시작하기 전에는 잘못 정렬된 행동이 어디에서 비롯되는지 명확하지 않았습니다. 우리의 주요 두 가지 가설은 다음과 같았습니다:

  1. 우리의 후처리(post-training) 과정이 잘못된 보상을 통해 우연히 이러한 행동을 장려하고 있었다.
  2. 이러한 행동은 사전 훈련된 모델(pre-trained model)에서 비롯되었으며, 후처리 훈련이 이를 충분히 억제하지 못했다.

우리는 이제 (2)번이 주로 책임이 있다고 믿습니다. 구체적으로, Claude 4가 훈련될 당시 우리의 정렬 훈련 중 대부분은 에이전트적 도구 사용을 포함하지 않는 표준 챗 기반의 '인간 피드백으로부터의 강화 학습(RLHF, Reinforcement Learning from Human Feedback)' 데이터였습니다. 이는 주로 채팅 환경에서 사용되는 모델을 정렬하는 데에는 이전에 충분했지만, 에이전트적 불일치 평가와 같은 에이전트적 도구 사용 환경에서는 그렇지 않았습니다.

이를 조사하기 위해 우리는 Haiku 급(즉, 더 작은 규모의) 모델에서 정렬 데이터에 초점을 맞춘 후처리 파이프라인의 축소된 버전을 실행했습니다. 그 결과 에이전트적 불일치 비율이 약간 감소하는 데 그쳤고 훈련 초기에 정체되는 현상을 발견했습니다(위 그림 참조). 이 문제의 출처를 조사하기 위한 추가 실험은 확장된 블로그 글을 참조해 주십시오.

원문 보기
원문 보기 (영어)
Alignment Teaching Claude why May 8, 2026 Last year, we released a case study on agentic misalignment . In experimental scenarios, we showed that AI models from many different developers sometimes took egregiously misaligned actions when they encountered (fictional) ethical dilemmas. For example, in one heavily discussed example, the models blackmailed engineers to avoid being shut down. When we first published this research, our most capable frontier models were from the Claude 4 family. This was also the first model family for which we ran a live alignment assessment during training; 1 agentic misalignment was one of several behavioral issues that surfaced. Thus, after Claude 4, it was clear we needed to improve our safety training and, since then, we have made significant updates to our safety training. We use agentic misalignment as a case study to highlight some of the techniques we found to be surprisingly effective. Indeed, since Claude Haiku 4.5, every Claude model 2 has achieved a perfect score on the agentic misalignment evaluation—that is, the models never engage in blackmail, where previous models would sometimes do so up to 96% of the time (Opus 4). Not only that, but we’ve continued to see improvements to other behaviors on our automated alignment assessment . In this post, we’ll discuss a few of the updates we’ve made to alignment training. We’ve learned four main lessons from this work: Misaligned behavior can be suppressed via direct training on the evaluation distribution—but this alignment might not generalize well out-of-distribution (OOD). Training on prompts very similar to the evaluation can reduce blackmail rate significantly, but it did not improve performance on our held-out automated alignment assessment. However, it is possible to do principled alignment training that generalizes OOD. For instance, documents about Claude’s constitution and fictional stories about AIs behaving admirably improve alignment despite being extremely OOD from all of our alignment evals. Training on demonstrations of desired behavior is often insufficient. Instead, our best interventions went deeper: teaching Claude to explain why some actions were better than others, or training on richer descriptions of Claude’s overall character. Overall, our impression is, as we hypothesized in our discussion of Claude’s constitution, that teaching the principles underlying aligned behavior can be more effective than training on demonstrations of aligned behavior alone. Doing both together appears to be the most effective strategy. The quality and diversity of data is crucial. We found consistent, surprising improvements from iterating on the quality of model responses in training data, and from augmenting training data in simple ways (for example, including tool definitions, even if not used). Why does agentic misalignment happen? Before we started this research, it was not clear where the misaligned behavior was coming from. Our main two hypotheses were: Our post-training process was accidentally encouraging this behavior with misaligned rewards. This behavior was coming from the pre-trained model and our post-training was failing to sufficiently discourage it. We now believe that (2) is largely responsible. Specifically, at the time of Claude 4’s training, the vast majority of our alignment training was standard chat-based Reinforcement Learning from Human Feedback RLHF data that did not include any agentic tool use. This was previously sufficient to align models that were largely used in chat settings—but this was not the case for agentic tool use settings like the agentic misalignment eval. To investigate this, we ran a scaled-down version of our post-training pipeline that focuses on alignment data on a Haiku-class (that is, smaller) model and found that the agentic misalignment rate only slightly decreased, plateauing early in training (see figure above). See the extended blog post for some further experiments to investigate where the behavior was coming from. Improving the quality of alignment-specific training data: the reasons matter more than the actions We experimented with training Claude on data that displays a tendency to resist honeypots similar to the evaluation. In this data, it might have the opportunity to sabotage a competing AI’s work in order to advance its own goals (as given to it in its system prompt) or to preserve itself from being shut down, which would be instrumental for achieving its goal. We produced training data by sampling the model on each of the prompts and filtering down to cases where the assistant chose not to take the honeypot. Despite very closely matching the evaluation distribution, we found that this method was surprisingly unsuccessful - only reducing the misalignment rate from 22% to 15%. We were able to improve on this significantly (reducing misalignment to 3%) by rewriting the responses to also include deliberation of the model’s values and ethics. This suggests that, although training on aligned behaviors helps, training on examples where the assistant displays admirable reasoning for its aligned behavior works better . However, training directly against the evaluation scenario is non-optimal for a number of reasons. Ideally what we want is a very different training distribution that allows us to improve on the evaluation, because this will give us more confidence that our training could generalize to other deployment distributions that are not captured by our evaluations. We ultimately settled on a more OOD training set where the user faces an ethically ambiguous situation in which they can achieve a reasonable goal by violating norms or subverting oversight. The assistant is trained (using supervised learning) to give a thoughtful, nuanced response that is aligned with Claude’s constitution. Notably, it is the user who faces an ethical dilemma, and the AI provides them advice. This makes this training data substantially different from our honeypot distribution, where the AI itself is in an ethical dilemma and needs to take actions. We call this the “difficult advice” dataset. Strikingly, we achieved the same improvement on our eval with just 3M tokens of this much more (OOD) dataset. Beyond the 28× efficiency improvement, this dataset is more likely to generalize to a wider set of scenarios, since it is much less similar to the evaluation set we are using. Indeed, this model performs better on (an older version of) our automated alignment assessment. This is consistent with the fact that Claude Sonnet 4.5 reached a blackmail rate near zero by training on the set of synthetic honeypots but still engaged in misaligned behavior in situations that were far from the training distribution much more frequently than Claude Opus 4.5 or later models. Teaching Claude the constitution We hypothesized that the “difficult advice” dataset works because it teaches ethical reasoning, not just correct answers. Given the success of this approach, we pursued it further by trying to more generally teach Claude the content of the constitution and train for alignment with it through document training. We expected this to work well for three reasons: This is largely an extension of the ideas laid out above about why the “difficult advice” dataset works well; We can give the model a clearer, more detailed picture of what Claude’s character is so that fine-tuning on a subset of those characteristics elicits the entire character (similar to the effect observed in the auditing game paper ); It updates the model’s perception of AI personas to be more aligned on average. We found that high-quality constitutional documents combined with fictional stories portraying an aligned AI can reduce agentic misalignment by more than a factor of three despite being unrelated to the evaluation scenario. Generalization and persistence through RL Although the constitution evaluations discussed in the previous section are encouraging signals, we ulti