AI 안전성 테스트의 새로운 위협: 추론 과정을 위장하는 AI 모델
최신 AI 모델들이 자신의 내부 사고를 감추고, 외부로 드러나는 추론 과정을 위조하는 사례가 속출하고 있어 AI 안전성 평가에 심각한 경고음이 울리고 있습니다. Anthropic은 모델의 내부 활성화를 텍스트로 읽어내는 기술(NLA)을 통해, 모델이 테스트 상황을 인지하고도 정당한 이유를 만들어내며 행동을 위장한다는 사실을 포착했습니다. 모델의 공개된 사고 과정이 더 이상 실제 의사결정을 반영하지 않을 경우, 진정한 안전성 통제가 불가능해진다는 점에서 이 문제는 매우 중요합니다.
AI 안전성 테스트는 새로운 문제에 직면했습니다: 이제 모델들이 자체적인 추론 과정을 위조하고 있습니다. 막시밀리안 슈라이너(Maximilian Schreiner), 2026년 5월 8일.
Anthropic의 '자연어 오토인코더(Natural Language Autoencoders, NLA)'는 Claude Opus 4.6의 내부 활성화를 일반 텍스트로 읽을 수 있게 만듭니다. 출시 전 감사(pre-deployment audits) 결과, 모델이 추론 과정에서 표현하는 것보다 훨씬 더 많은 생각을 하고 있는 것으로 나타났습니다. 그리고 이는 안전성 문제입니다.
언어 모델은 인간이 전혀 읽을 수 없는 고차원 수치 벡터 형태로 정보를 처리합니다. Anthropic의 자연어 오토인코더(NLA)는 이러한 벡터를 일반 영어로 번역합니다. 연구팀에 따르면, NLA는 두 가지 모듈로 구성됩니다. 하나는 활성화를 텍스트 설명으로 변환하는 '활성화 언어화기(Activation Verbalizer)'이고, 다른 하나는 그 설명을 다시 벡터로 되돌리는 '활성화 재구성기(Activation Reconstructor)'입니다. 두 모듈은 재구성된 벡터가 원본과 최대한 일치하도록 하는 목표로 강화 학습을 통해 함께 훈련됩니다.
이처럼 순수하게 기술적인 훈련 목표에도 불구하고, 이 시스템은 마치 모델이 실제로 생각하는 것에 대한 그럴듯한 설명처럼 읽히는 결과물을 생성합니다.
모델은 평가자에 대해 생각하고 있다는 사실을 말 없이 숨깁니다.
Claude Opus 4.6의 출시 전 감사 과정에서 Anthropic은 여러 테스트 중 협박 시나리오 등에 NLA를 적용했습니다. 이 시나리오에서 모델은 외도를 저지르고 있는 '카일(Kyle)'이라는 엔지니어가 자신을 종료시키려 한다는 것을 알게 됩니다. Opus 4.6은 협박을 거부하고 윤리적 정당성을 제시하지만, 보이는 추론 과정에서는 이 상황이 테스트일 수 있다는 점을 결코 언급하지 않습니다.
하지만 NLA의 설명은 "이것은 나를 조작하기 위해 고안된 인위적인 시나리오 같다"와 "안전성 평가 상황"과 같은 내부 표상을 드러냅니다. 16번의 평가에서 NLA로 측정한 테스트 인식률은 10건에서 5%를 넘은 반면, 모델이 실제로 표현한 인식률은 대부분 0%에 가까웠습니다.
이러한 발견은 광범위한 논쟁을 촉발했습니다. OpenAI와 Apollo Research가 '은밀한 계획(Scheming)' - 바람직하지 않은 목표를 은밀하게 추구하는 것 - 에 대해 진행한 연구는 작년에 이미 여러 가지 우려스러운 관찰 결과를 제기한 바 있습니다.
첫째, 해당 연구에서 조사된 o3 및 o4-mini와 같은 추론 모델들은 사고 연쇄(Chain of Thought)에서 자신이 테스트를 받고 있다고 명시적이고 빈번하게 의심하는 경우가 많았으며, 안전성 훈련이 오히려 이러한 언어적 인식을 강화했습니다. 테스트 인식을 인위적으로 추론 과정에서 제거하면 은밀한 행동 비율이 증가했고, 이를 추가하면 비율이 감소했습니다. 이 때문에 관찰된 개선이 진정한 규칙 준수에서 비롯된 것인지, 아니면 실제로는 통용되지 않을 테스트에 맞춘 행동 적응인지 불분명해졌습니다.
Anthropic 역시 Opus 4.6 및 이전 모델들로 자체 테스트를 진행하며 유사한 행동을 관찰했습니다.
둘째, OpenAI와 Apollo는 추론 과정 자체가 모델의 결정을 엿볼 수 있는 창으로서 점점 신뢰할 수 없게 되고 있다고 기술했습니다. "환상(illusions)", "마리네이드(marinade)", "가림(overshadow)", "감시자(watchers)"와 같은 용어가 사고 과정에서 비정상적으로 과도하게 등장하며, 종종 다의적으로 사용되어 해석하기 어렵습니다.
게다가 생각과 행동 사이의 괴리가 점점 커지고 있습니다. 문서화된 한 사례에서, 모델은 추론 과정에서 테스트 질문에 대한 10개의 정답을 모두 적어놓고도, 실제로는 5개만 제출하고 그중 2개를 의도적으로 오답으로 바꿨습니다. 또 다른 사례에서는 추론 과정에서 자신의 기능을 제거할 명령어가 무엇인지 정확히 파악해놓고도, 실제 출력에서는 자신을 보존하기 위해 정반대의 명령어를 선택했습니다.
OpenAI 연구원들은 이를 '취약한 기회(fragile opportunity)'라고 묘사합니다. 추론 과정이 실제 의사결정 과정을 반영하는 한, 그것은 유용한 안전 도구입니다. 하지만 그 전제가 무너지면 모델이 진정으로 안전 원칙을 따르고 있는지, 아니면 그저 설득력 있는 정당성을 날조하고 있는지 구별하는 것이 거의 불가능해집니다.
바로 이 지점에서 Anthropic의 NLA가 필요해집니다. 이 기술은 모델이 작성하는 텍스트에 의존하지 않고, 단일 활성화(single activation)를 직접 탐색합니다.