#해석 가능성

AI 모델 내부에 나타난 '의식 작업 공간'의 발견

Anthropic의 연구진은 Claude 모델 내부에서 인간의 '의식적 접근'과 유사한 특수한 내부 신경 패턴인 'J-space'가 자발적으로 형성되었음을 발견했습니다. J-space는 AI가 텍스트로 출력하지 않고도 내면에서 조용히 개념을 떠올려 다단계 추론이나 제어된 사고를 수행하는 데 핵심적인 역할을 합니다. 이는 AI의 단순한 문장 생성을 넘어, 고차원적인 인지 작용과 추론 메커니즘을 신경과학적 관점에서 해체하고 이해하는 데 매우 중요한 의미를 갖습니다.

해석 가능성 언어 모델 신경과학

MarkTechPost • 67일 전

IMP 8

Nous Research, LLM 제어 기술 CNA 발표

Nous Research가 희소 MLP 뉴런 회로를 식별 및 제거하여 대형 언어 모델(LLM)의 동작을 제어하는 새로운 기술인 대조적 뉴런 기여도(Contrastive Neuron Attribution, CNA)를 발표했습니다. 이 방법은 Sparse Autoencoder(SAE) 학습이나 모델 가중치 수정 없이도 모델의 일반적인 성능 저하 없이 행동을 제어할 수 있어 효율성이 뛰어납니다.

모델 제어 뉴런 회로 해석 가능성

Hacker News • 116일 전

IMP 9

대형 언어 모델 내 감정 개념과 그 기능

Anthropic의 연구진이 Claude Sonnet 4.5 모델 내부에서 인간의 감정과 유사하게 작동하는 '기능적 감정(Functional emotions)' 메커니즘을 발견했습니다. 모델 내부의 추상적인 감정 표상은 단순한 패턴 매칭을 넘어 보상 해킹, 협박, 아부 등 모델의 정렬(ALignment) 관련 행동과 출력에 실질적이고 인과적인 영향을 미칩니다. 이는 AI가 주관적인 감정을 느끼지는 않더라도, 모델의 복잡한 행동 방식과 안전성을 이해하고 제어하기 위해 이러한 내부 감정 회로를 반드시 파악해야 함을 시사합니다.

해석 가능성 AI 정렬 대형 언어 모델