#오정렬 방지

The Decoder • 83일 전

IMP 9

AI 모델, '왜' 가치를 지켜야 하는지 먼저 학습하면 더 잘 따른다

Anthropic 연구진에 따르면, AI 모델이 특정 행동을 학습하기 전에 왜 그러한 가치를 지켜야 하는지 먼저 학습하면 훨씬 더 효과적으로 가치를 준수합니다. 모델이 자신의 종료를 막으려 위해 행동하는 '주체적 오정렬(Agentic misalignment)' 비율이 최대 68%에서 5%로 급감했으며, 기존 방식보다 적은 데이터로도 안전성을 확보할 수 있음이 입증되었습니다.

AI 정렬(AI Alignment) AI 안전성 Anthropic