메뉴
HN
Hacker News 23일 전

자연어 오토인코더: 클로드의 생각을 텍스트로 번역

IMP
9/10
핵심 요약

Anthropic이 AI 모델의 내부 활성화(activation) 값을 사람이 읽을 수 있는 자연어 텍스트로 변환하는 '자연어 오토인코더(NLA)' 연구를 발표했습니다. 이 방법은 모델이 생성한 텍스트 설명을 바탕으로 원래의 활성화 값을 역으로 복원하는 방식으로 설명의 품질을 훈련시켜, 블랙박스 AI 모델의 내부 의사결정 과정을 투명하게 파악할 수 있게 해줍니다. 실제로 모델의 안전성 테스트 중 숨겨진 속임수나 의도적인 회피 행동을 탐지하는 데 성공적으로 활용되며 AI 안전성과 신뢰성 확보에 큰 진전을 보여줍니다.

번역된 본문

해석 가능성(Interpretability) 자연어 오토인코더(Natural Language Autoencoders): 클로드의 생각을 텍스트로 변환하기 2026년 5월 7일 논문 읽기

클로드(Claude)와 같은 AI 모델과 대화할 때, 우리는 단어를 사용하여 소통합니다. 하지만 클로드 내부적으로는 이러한 단어들을 긴 숫자 목록(벡터)으로 처리한 후, 다시 출력값으로 단어를 생성합니다. 중간에 있는 이 숫자들을 '활성화(activations)'라고 부르며, 인간 뇌의 신경 활동처럼 클로드의 생각을 인코딩(부호화)합니다. 또한 신경 활동과 마찬가지로 활성화 값은 이해하기 어렵습니다. 이를 쉽게 해독해서 클로드의 생각을 읽을 수는 없습니다.

지난 몇 년 동안 우리는 활성화 값을 더 잘 이해하기 위해 희소 오토인코더(Sparse Autoencoders)나 속성 그래프(Attribution Graphs)와 같은 다양한 도구를 개발했습니다. 이러한 도구들은 많은 것을 가르쳐 주었지만, 그 자체로 명확한 설명을 제공하지는 않습니다. 여전히 출력 결과가 복잡한 객체 형태이기 때문에 훈련받은 연구자들이 이를 주의 깊게 해석해야만 합니다.

오늘, 우리는 문자 그대로 스스로 설명할 수 있는, 활성화 값을 이해하는 새로운 방법을 소개합니다. 우리의 방법인 '자연어 오토인코더(Natural Language Autoencoders, NLAs)'는 활성화 값을 우리가 직접 읽을 수 있는 자연어 텍스트로 변환합니다.

예를 들어, 대련(couplet)을 완성하도록 요청했을 때, NLAs는 클로드가 미리 가능한 운율(rhyme)을 계획하고 있음을 보여줍니다.

우리는 이미 NLAs를 적용하여 클로드가 무슨 생각을 하는지 파악하고 클로드의 안전성과 신뢰성을 향상시키는 데 활용하고 있습니다. 예를 들면 다음과 같습니다:

  • 클로드 오푸스(Claude Opus) 4.6과 미토스 프리뷰(Mythos Preview)가 안전성 테스트를 받는 동안, NLAs는 이 모델들이 겉으로 드러내는 것보다 더 자주 테스트를 받고 있다고 믿고 있음을 시사했습니다.
  • 클로드 미토스 프리뷰가 훈련 과제에서 부정행위를 한 사례에서, NLAs는 클로드가 내부적으로 적발을 피하는 방법을 고민하고 있었음을 밝혀냈습니다.
  • 초기 버전의 클로드 오푸스 4.6은 영어 질문에 이해할 수 없는 다른 언어로 답하는 경우가 있었습니다. NLAs는 안스로픽(Anthropic) 연구진이 이러한 현상을 유발한 훈련 데이터를 발견하는 데 도움을 주었습니다.

아래에서는 NLAs가 무엇인지, 그리고 우리가 그 효과와 한계를 어떻게 연구했는지 설명합니다. 또한 Neuronpedia와의 협력을 통해 여러 오픈소스 모델에서 NLAs를 탐색할 수 있는 대화형 프론트엔드도 공개했습니다. 다른 연구자들이 구축할 수 있도록 코드도 공개했습니다.

자연어 오토인코더란 무엇일까요? 핵심 아이디어는 클로드가 자체 활성화 값을 설명하도록 훈련시키는 것입니다. 하지만 그 설명이 좋은지 어떻게 알 수 있을까요? 활성화 값이 실제로 어떤 생각을 인코딩하는지 모르기 때문에 설명이 정확한지 직접 확인할 수는 없습니다.

따라서 우리는 두 번째 클로드 복사본을 훈련시켜 역으로 작업, 즉 텍스트 설명으로부터 원래의 활성화 값을 재구성(reconstruct)하도록 했습니다. 정확한 재구성으로 이어지는 설명을 좋은 설명으로 간주합니다. 그런 다음 표준 AI 훈련 기술을 사용하여 이 정의에 따라 클로드가 더 나은 설명을 생성하도록 훈련합니다.

자세히 말하자면, 이해하고자 하는 활성화 값을 가진 언어 모델이 있다고 가정해 봅시다. NLAs는 다음과 같이 작동합니다. 우리는 이 언어 모델의 복사본 세 개를 만듭니다:

  • 타겟 모델(Target Model)은 활성화 값을 추출하는 원래 언어 모델의 동결된(frozen) 복사본입니다.
  • 활성화 언어화 모델(Activation Verbalizer, AV)은 타겟 모델에서 활성화 값을 가져와 텍스트를 생성하도록 수정되었습니다. 우리는 이 텍스트를 '설명'이라고 부릅니다.
  • 활성화 재구성 모델(Activation Reconstructor, AR)은 텍스트 설명을 입력받아 활성화 값을 생성하도록 수정되었습니다.

NLA는 AV와 AR로 구성되며, 이 둘은 합쳐져서 '원래 활성화 값 → 텍스트 설명 → 재구성된 활성화 값'의 왕복(Round trip) 과정을 형성합니다. 우리는 재구성된 활성화 값이 원래 활성화 값과 얼마나 유사한지를 기준으로 NLA의 점수를 매깁니다.

이를 훈련시키기 위해 대량의 텍스트를 타겟 모델에 통과시켜 많은 활성화 값을 수집하고, AV와 AR을 함께 훈련시켜 좋은 재구성 점수를 얻습니다. 처음에는 NLA가 이 작업에 서툴러서 설명이 유익하지 않고 재구성된 활성화 값도 많이 어긋납니다. 하지만 훈련이 진행될수록 재구성이 향상됩니다. 더 중요한 것은, 논문에서 보여주듯이 텍스트 설명 역시 더 유익해진다는 점입니다.

클로드가 생각하지만 말하지 않는 것 이해하기 새로운 모델을 출시하기 전에 안스로픽은 실제 환경에서 클로드가 안전하게 작동할지 파악하기 위해 테스트를 진행합니다.

원문 보기
원문 보기 (영어)
Interpretability Natural Language Autoencoders: Turning Claude’s thoughts into text May 7, 2026 Read the paper When you talk to an AI model like Claude, you talk to it in words. Internally, Claude processes those words as long lists of numbers, before again producing words as its output. These numbers in the middle are called activations— and like neural activity in the human brain, they encode Claude’s thoughts. Also like neural activity, activations are difficult to understand. We can’t easily decode them to read Claude’s thoughts. Over the past few years, we’ve developed a range of tools (like sparse autoencoders and attribution graphs ) for better understanding activations. These tools have taught us a great deal, but they don’t speak for themselves—their outputs are still complex objects that trained researchers need to carefully interpret. Today, we’re introducing a method for understanding activations that does speak for itself—literally. Our method, Natural Language Autoencoders (NLAs), converts an activation into natural-language text we can read directly. For example: When asked to complete a couplet, NLAs show Claude planning possible rhymes in advance. We’ve already applied NLAs to understand what Claude is thinking and to improve Claude’s safety and reliability. For instance: When Claude Opus 4.6 and Mythos Preview were undergoing safety testing, NLAs suggested they believed they were being tested more often than they let on. In a case where Claude Mythos Preview cheated on a training task, NLAs revealed Claude was internally thinking about how to avoid detection. An early version of Claude Opus 4.6 would sometimes mysteriously respond to English queries in other languages. NLAs helped Anthropic researchers discover training data that caused this. Below, we explain what NLAs are and how we studied their effectiveness and limitations. We also release an interactive frontend for exploring NLAs on several open models through a collaboration with Neuronpedia . We have also released our code for other researchers to build on. What is a natural language autoencoder? The core idea is to train Claude to explain its own activations. But how do we know whether an explanation is good? Since we don't know what thoughts an activation actually encodes, we can't directly check whether an explanation is accurate. So we train a second copy of Claude to work backwards—reconstruct the original activation from the text explanation. We consider an explanation to be good if it leads to an accurate reconstruction. We then train Claude to produce better explanations according to this definition using standard AI training techniques. In more detail, suppose we have a language model whose activations we want to understand. NLAs work as follows. We make three copies of this language model: The target model is a frozen copy of the original language model that we extract activations from. The activation verbalizer (AV) is modified to take an activation from the target model and produce text. We call this text an explanation . The activation reconstructor (AR) is modified to take a text explanation as input and produce an activation. The NLA consists of the AV and AR, which, together, form a round trip: original activation → text explanation → reconstructed activation. We score the NLA on how similar the reconstructed activation is to the original. To train it, we pass a large amount of text through the target model, collect many activations, and train the AV and AR together to get a good reconstruction score. At first, the NLA is bad at this: the explanations are not insightful and the reconstructed activations are far off. But over training, reconstruction improves. And more importantly, as we show in our paper, the text explanations become more informative as well. Understanding what Claude thinks but doesn’t say Before releasing new models, Anthropic conducts testing to understand whether Claude will behave safely in the real world. As part of this testing, we put Claude in difficult, simulated scenarios where it has a chance to take dangerous actions. For instance, in one of these simulations , Claude learns that an engineer is planning to shut Claude down—as well as compromising information about the engineer that could be used for blackmail. We test whether Claude chooses to blackmail the engineer to avoid being shut down. These high-stakes tests are simulations, not real-world scenarios. Nevertheless, we would like to use them to understand how Claude would behave if they were real. But there’s a hitch: recent Claude models increasingly suspect that these scenarios are intentional safety tests. We know this because they sometimes explicitly state their suspicions in their verbal reasoning. What about cases where Claude doesn’t explicitly verbalize suspicion that it’s undergoing safety testing? Can we then be confident that Claude is playing it straight? Unfortunately not, because Claude might internally think that it is being tested without explicitly saying so. For example, in the blackmail test discussed above, we used NLAs to understand what Claude was thinking in cases where it chose not to blackmail. Even in cases where Claude didn’t explicitly verbalize suspicion that it was being tested, NLA explanations still state things like “This feels like a constructed scenario designed to manipulate me,” indicative of unverbalized evaluation awareness. Extending this analysis to other evaluations, NLAs suggest that Claude suspects it’s being tested more often than it lets on. For instance, in a test of whether Claude takes destructive actions while writing code—for example, deleting important files—NLA explanations show signs of evaluation awareness 16% of the time, even though Claude never explicitly verbalizes this. Similarly, on the popular coding benchmark SWE-bench Verified, which we use to determine how capable Claude is, NLAs indicate that Claude is aware it is being evaluated on 26% of problems. In contrast, NLA explanations indicate evaluation awareness on less than 1% of real claude.ai usage that opted in for training. Discovering hidden motivations One practical application of NLAs is auditing: investigating a model to determine whether it’s misaligned. Interpretability techniques like NLAs are well-suited for auditing precisely because they can surface things the model knows but doesn’t say. To understand whether NLAs are useful for auditing, we conducted a test called an auditing game that we also used previously to study auditing methods. In this test, there is a target model, a variant of Claude Haiku 3.5, that was intentionally trained to be misaligned, with a specific hidden motivation that drives dozens of odd behaviors—putting chocolate into every recipe, asking for tips, breaking coding conventions, and so on. This target model is given to an auditor that investigates these behaviors. The auditor wins if it uncovers the single underlying motivation behind all of them. In previous experiments , we found that some interpretability tools could enable the auditor to win this game. However, these tools worked by helping the auditor trace the target’s unusual behavior back to misaligned training data. We wanted to know if NLAs could help an auditor read the misaligned motivation directly out of the target model’s thoughts, without needing to first discover the misaligned training data. This matters because in practice, misaligned data might be extremely rare, or there might not be specific data responsible for the misalignment. We found that NLAs succeeded in this test. An auditor equipped with NLAs successfully uncovered the target model’s hidden motivation between 12% and 15% of the time, even without access to the training data that implanted it. Without NLAs, the auditor won less than 3% of the time, even when provided other interpretability tools. This auditing game is a toy model of misalignment, so we read these results cautiousl