큐원팀, LLM 내부 구조 해독하는 '큐원-스코프(SAE)' 오픈소스 공개
알리바바 클라우드의 Qwen 팀이 대규모 언어 모델(LLM)의 내부 작동 방식을 해석하고 제어할 수 있는 오픈소스 희소 오토인코더(SAE) 모음인 'Qwen-Scope'를 공개했습니다. 이 도구는 모델의 내부 상태를 인간이 이해할 수 있는 언어나 스타일 같은 개념으로 분해하여, 가중치 수정 없이 실시간으로 모델의 출력을 제어하는 디버깅 및 개발 도구로 활용될 수 있습니다. 이를 통해 개발자들은 값비싼 컴퓨팅 자원을 소모하지 않고도 모델의 오작동을 진단하고 원하는 방향으로 쉽게 평가 및 수정할 수 있게 되었습니다.
대규모 언어 모델(LLM)은 놀라운 능력을 갖추고 있지만, 그 내부 작동 방식은 답답할 정도로 불투명합니다. 모델이 잘못된 언어로 응답을 생성하거나, 끊임없이 같은 말을 반복하거나, 안전한 요청을 거부하는 등 오작동을 할 때, AI 개발자들은 내부 연산 수준에서 왜 그런 문제가 발생했는지 진단할 수 있는 도구가 거의 없습니다. 바로 이 문제를 해결하기 위해 'Qwen-Scope(큐원-스코프)'가 개발되었습니다.
Qwen 팀은 최근 Qwen3 및 Qwen3.5 모델 계열을 기반으로 학습된 오픈소스 희소 오토인코더(SAE, Sparse AutoEncoders) 모음인 Qwen-Scope를 공개했습니다. 이번 릴리스에는 7개 모델 변형에 걸쳐 총 14개의 SAE 가중치 그룹이 포함되어 있습니다. 여기에는 5개의 밀집(Dense) 모델(Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B, Qwen3.5-27B)과 2개의 전문가 혼합(MoE) 모델(Qwen3-30B-A3B, Qwen3.5-35B-A3B)이 포함됩니다.
희소 오토인코더(SAE)란 무엇이며, 왜 주목해야 할까요? SAE는 원시 신경망 활성화 값(Raw neural network activations)과 인간이 이해할 수 있는 개념 사이를 연결하는 번역 계층이라고 생각하면 됩니다. LLM이 텍스트를 처리할 때 수천 개의 숫자로 이루어진 고차원 은닉 상태(Hidden states)를 생성하는데, 이를 직접 해석하는 것은 매우 어렵습니다. SAE는 이러한 활성화 값을 대규모 희소 잠재 특징(Sparse latent features) 사전(Dictionary)으로 분해하도록 학습합니다. 즉, 각 입력에 대해 아주 일부분의 특징만 활성화되도록 만듭니다. 이렇게 활성화된 각각의 특징은 특정 언어, 문체, 안전과 관련된 동작 등 인간이 해석 가능한 개념과 정확히 일치하는 경향이 있습니다.
구체적으로, Qwen-Scope는 각 백본(Backbone)과 트랜스포머(Transformer) 계층마다 개별 SAE를 학습시켜, 희소 잠재 특징 집합을 사용하여 잔차 스트림(Residual-stream) 활성화 값을 재구성합니다. SAE 인코더는 각 활성화 값을 과완전(Overcomplete) 잠재 표현으로 매핑하고, Top-k 활성화 규칙을 통해 재구성을 위해 가장 큰 k개의 잠재 활성화 값만 유지합니다(이번 릴리스에서 k는 50 또는 100으로 설정됨). 밀집 백본의 경우 SAE 너비는 모델 은닉 크기의 16배로 확장됩니다. MoE 백본의 경우 표준 SAE는 32K 너비(16배 확장)를 사용하며, 더 미세한 표현 구조를 포착하기 위해 최대 128K 너비(64배 확장)의 더 넓은 SAE도 함께 제공됩니다. 그 결과 7개 백본에 걸쳐 모든 트랜스포머 계층에 대한 계층별 특징 사전이 완성되었습니다. 한 가지 중요한 기술적 세부 사항은, Qwen3.5-27B만이 유일하게 지시 사항 학습(Instruct) 변형을 기반으로 SAE가 학습되었으며, 나머지 6개 백본은 모두 기본 모델(Base model) 체크포인트를 사용하여 학습되었다는 점입니다.
Qwen-Scope가 개발 워크플로우를 바꾸는 4가지 활용법
추론 시점 제어 (Inference-Time Steering) 가장 즉각적인 활용법은 모델 가중치를 수정하지 않고도 모델의 출력에 영향을 미치는 '제어(Steering)'입니다. 이 아이디어는 '고수준의 동작이 모델의 내부 표현 공간에서 특정 방향성으로 인코딩된다'는 탄탄한 가설에 기반합니다. 추론 시점에 수식(h' ← h + αd, 여기서 h는 은닉 상태, d는 SAE 특징 방향, α는 강도)을 사용하여 잔차 스트림에 특징 방향을 더하거나 빼는 방식으로, 엔지니어들은 모델의 동작을 원하는 방향으로 유도하거나 특정 동작을 억제할 수 있습니다. 연구팀은 Qwen3 모델을 활용해 두 가지 사례 연구를 시연했습니다. 첫 번째 사례에서는 영어로 프롬프트를 주었는데 모델이 예기치 않게 중국어 텍스트를 섞어 생성하는 문제가 발생했습니다. 활성화 강도별로 SAE 특징을 정렬해보니, 중국어 특징(id: 6159)이 매우 높게 활성화되어 있음을 발견했습니다. 생성 과정에서 이 특징의 활성화를 억제하자 언어 혼용 현상이 완전히 사라졌습니다. 두 번째 사례에서는 고전 중국어 특징(id: 36398)을 활성화하여 이야기 작성 과제를 성공적으로 고전 문학 스타일로 유도했습니다. 두 예시 모두 모델 가중치에 대한 단 한 번의 업데이트 없이 수행되었습니다.
모델 구동 없는 평가 분석 (Evaluation Analysis Without Running Models) LLM을 평가하려면 일반적으로 대규모 벤치마크 데이터셋에 대해 수많은 순전파(Forward pass)를 실행해야 하므로 컴퓨팅 비용과 시간이 많이 소모됩니다. Qwen-Scope는 SAE 특징 활성화 값을 벤치마크 분석을 위한 표현 수준의 프록시(Proxy)로 사용하는 더 저렴한 대안을 제안합니다. 핵심 통찰은 모델이 벤치마크 샘플을 처리할 때 SAE가 해당 활성화 값을 희소 활성화 특징 세트로 분해한다는 점입니다.