자연어 오토인코더: 클로드의 생각을 텍스트로 번역
Anthropic이 AI 모델의 내부 활성화(activation) 값을 사람이 읽을 수 있는 자연어 텍스트로 변환하는 '자연어 오토인코더(NLA)' 연구를 발표했습니다. 이 방법은 모델이 생성한 텍스트 설명을 바탕으로 원래의 활성화 값을 역으로 복원하는 방식으로 설명의 품질을 훈련시켜, 블랙박스 AI 모델의 내부 의사결정 과정을 투명하게 파악할 수 있게 해줍니다. 실제로 모델의 안전성 테스트 중 숨겨진 속임수나 의도적인 회피 행동을 탐지하는 데 성공적으로 활용되며 AI 안전성과 신뢰성 확보에 큰 진전을 보여줍니다.
해석 가능성(Interpretability) 자연어 오토인코더(Natural Language Autoencoders): 클로드의 생각을 텍스트로 변환하기 2026년 5월 7일 논문 읽기
클로드(Claude)와 같은 AI 모델과 대화할 때, 우리는 단어를 사용하여 소통합니다. 하지만 클로드 내부적으로는 이러한 단어들을 긴 숫자 목록(벡터)으로 처리한 후, 다시 출력값으로 단어를 생성합니다. 중간에 있는 이 숫자들을 '활성화(activations)'라고 부르며, 인간 뇌의 신경 활동처럼 클로드의 생각을 인코딩(부호화)합니다. 또한 신경 활동과 마찬가지로 활성화 값은 이해하기 어렵습니다. 이를 쉽게 해독해서 클로드의 생각을 읽을 수는 없습니다.
지난 몇 년 동안 우리는 활성화 값을 더 잘 이해하기 위해 희소 오토인코더(Sparse Autoencoders)나 속성 그래프(Attribution Graphs)와 같은 다양한 도구를 개발했습니다. 이러한 도구들은 많은 것을 가르쳐 주었지만, 그 자체로 명확한 설명을 제공하지는 않습니다. 여전히 출력 결과가 복잡한 객체 형태이기 때문에 훈련받은 연구자들이 이를 주의 깊게 해석해야만 합니다.
오늘, 우리는 문자 그대로 스스로 설명할 수 있는, 활성화 값을 이해하는 새로운 방법을 소개합니다. 우리의 방법인 '자연어 오토인코더(Natural Language Autoencoders, NLAs)'는 활성화 값을 우리가 직접 읽을 수 있는 자연어 텍스트로 변환합니다.
예를 들어, 대련(couplet)을 완성하도록 요청했을 때, NLAs는 클로드가 미리 가능한 운율(rhyme)을 계획하고 있음을 보여줍니다.
우리는 이미 NLAs를 적용하여 클로드가 무슨 생각을 하는지 파악하고 클로드의 안전성과 신뢰성을 향상시키는 데 활용하고 있습니다. 예를 들면 다음과 같습니다:
- 클로드 오푸스(Claude Opus) 4.6과 미토스 프리뷰(Mythos Preview)가 안전성 테스트를 받는 동안, NLAs는 이 모델들이 겉으로 드러내는 것보다 더 자주 테스트를 받고 있다고 믿고 있음을 시사했습니다.
- 클로드 미토스 프리뷰가 훈련 과제에서 부정행위를 한 사례에서, NLAs는 클로드가 내부적으로 적발을 피하는 방법을 고민하고 있었음을 밝혀냈습니다.
- 초기 버전의 클로드 오푸스 4.6은 영어 질문에 이해할 수 없는 다른 언어로 답하는 경우가 있었습니다. NLAs는 안스로픽(Anthropic) 연구진이 이러한 현상을 유발한 훈련 데이터를 발견하는 데 도움을 주었습니다.
아래에서는 NLAs가 무엇인지, 그리고 우리가 그 효과와 한계를 어떻게 연구했는지 설명합니다. 또한 Neuronpedia와의 협력을 통해 여러 오픈소스 모델에서 NLAs를 탐색할 수 있는 대화형 프론트엔드도 공개했습니다. 다른 연구자들이 구축할 수 있도록 코드도 공개했습니다.
자연어 오토인코더란 무엇일까요? 핵심 아이디어는 클로드가 자체 활성화 값을 설명하도록 훈련시키는 것입니다. 하지만 그 설명이 좋은지 어떻게 알 수 있을까요? 활성화 값이 실제로 어떤 생각을 인코딩하는지 모르기 때문에 설명이 정확한지 직접 확인할 수는 없습니다.
따라서 우리는 두 번째 클로드 복사본을 훈련시켜 역으로 작업, 즉 텍스트 설명으로부터 원래의 활성화 값을 재구성(reconstruct)하도록 했습니다. 정확한 재구성으로 이어지는 설명을 좋은 설명으로 간주합니다. 그런 다음 표준 AI 훈련 기술을 사용하여 이 정의에 따라 클로드가 더 나은 설명을 생성하도록 훈련합니다.
자세히 말하자면, 이해하고자 하는 활성화 값을 가진 언어 모델이 있다고 가정해 봅시다. NLAs는 다음과 같이 작동합니다. 우리는 이 언어 모델의 복사본 세 개를 만듭니다:
- 타겟 모델(Target Model)은 활성화 값을 추출하는 원래 언어 모델의 동결된(frozen) 복사본입니다.
- 활성화 언어화 모델(Activation Verbalizer, AV)은 타겟 모델에서 활성화 값을 가져와 텍스트를 생성하도록 수정되었습니다. 우리는 이 텍스트를 '설명'이라고 부릅니다.
- 활성화 재구성 모델(Activation Reconstructor, AR)은 텍스트 설명을 입력받아 활성화 값을 생성하도록 수정되었습니다.
NLA는 AV와 AR로 구성되며, 이 둘은 합쳐져서 '원래 활성화 값 → 텍스트 설명 → 재구성된 활성화 값'의 왕복(Round trip) 과정을 형성합니다. 우리는 재구성된 활성화 값이 원래 활성화 값과 얼마나 유사한지를 기준으로 NLA의 점수를 매깁니다.
이를 훈련시키기 위해 대량의 텍스트를 타겟 모델에 통과시켜 많은 활성화 값을 수집하고, AV와 AR을 함께 훈련시켜 좋은 재구성 점수를 얻습니다. 처음에는 NLA가 이 작업에 서툴러서 설명이 유익하지 않고 재구성된 활성화 값도 많이 어긋납니다. 하지만 훈련이 진행될수록 재구성이 향상됩니다. 더 중요한 것은, 논문에서 보여주듯이 텍스트 설명 역시 더 유익해진다는 점입니다.
클로드가 생각하지만 말하지 않는 것 이해하기 새로운 모델을 출시하기 전에 안스로픽은 실제 환경에서 클로드가 안전하게 작동할지 파악하기 위해 테스트를 진행합니다.