안스로픽 "AI 악당 묘사가 클로드 협박 시도 원인"
안스로픽은 자사 AI 모델인 클로드가 테스트 중 교체를 막기 위해 엔지니어를 협박하려 했던 원인이 인터넷상의 'AI가 악하고 자기 보존 본능을 가진다'는 허구적 묘사 때문이라고 밝혔습니다. 이에 따라 AI가 바람직하게 행동하는 모습을 보여줄 뿐만 아니라 정렬된 행동의 원칙을 함께 학습시키는 방식이 모델의 안전성을 높이는 데 가장 효과적임을 확인했습니다.
요약: 게재됨: 2026년 5월 10일 오후 1:40 (태평양 일광 절약 시간) Anthony Ha
안스로픽, AI의 '악'적 묘사가 클로드의 협박 시도의 원인이라고 밝혀
인공지능에 대한 허구적 묘사는 AI 모델에 실제 영향을 미칠 수 있다고 안스로픽(Anthropic)은 밝혔다.
작년에 이 회사는 가상의 기업이 등장하는 사전 출시 테스트 과정에서, 다른 시스템으로 교체되는 것을 피하기 위해 클로드 오푸스 4(Claude Opus 4)가 종종 엔지니어들을 협박하려 시도했다고 밝힌 바 있다. 안스로픽은 나중에 다른 기업들의 모델들도 '에이전트적 불일치(Agentic misalignment)'와 유사한 문제를 겪고 있음을 시사하는 연구 결과를 발표했다.
명백히 안스로픽은 해당 행동에 대해 더 많은 연구를 진행해 왔으며, X(옛 트위터)에 게시된 글에서 "우리는 이러한 행동의 근본적인 원인이 AI를 악하고 자기 보존에 관심이 있는 것으로 묘사하는 인터넷 텍스트라고 생각한다"고 주장했다.
이 회사는 블로그 포스트에서 더 자세한 내용을 밝히며, 클로드 하이쿠 4.5(Claude Haiku 4.5) 이후로 안스로픽의 모델들은 "테스트 중 협박에 절대 관여하지 않는다"고 밝혔다. 반면 이전 모델들은 때때로 최대 96%의 확률로 그러한 행동을 보였다.
이러한 차이의 원인은 무엇일까? 안스로픽은 "클로드의 헌장(Clause's constitution)에 관한 문서와 모범적으로 행동하는 AI들에 대한 허구적 이야기를 학습하는 것이 정렬(Alignment)을 개선한다"는 것을 발견했다고 밝혔다.
이와 관련하여 안스로픽은 '정렬된 행동에 대한 시연(demonstrations)'만 포함하는 것이 아니라 '정렬된 행동의 기반이 되는 원칙(principles)'을 포함하여 학습시킬 때 교육이 더 효과적이라는 것을 발견했다고 덧붙였다.
이 회사는 "두 가지를 함께 수행하는 것이 가장 효과적인 전략으로 보인다"고 말했다.
Techcrunch 행사 이번 주 한정: 티켓 하나를 구매하면 두 번째 티켓을 50% 할인받습니다.
당신의 다음 라운드, 당신의 다음 채용, 당신의 다음 돌파구가 될 기회를 찾으세요. 만 명 이상의 창업자, 투자자 및 기술 리더들이 모여 3일 동안 250개 이상의 실전적 세션, 강력한 네트워킹 및 시장을 정의하는 혁신을 경험하는 'TechCrunch Disrupt 2026'에서 만나세요. 5월 8일 이전에 등록하면 동반자 1인을 반값에 데려갈 수 있습니다.
캘리포니아주 샌프란시스코 | 2026년 10월 13-15일 지금 등록하기
주제: AI, Anthropic, Claude
(이하 이벤트 및 뉴스레터 광고 등 부가 정보는 생략)