메뉴

#해석 가능성

MP
MarkTechPost 8일 전
IMP 8

Nous Research, LLM 제어 기술 CNA 발표

Nous Research가 희소 MLP 뉴런 회로를 식별 및 제거하여 대형 언어 모델(LLM)의 동작을 제어하는 새로운 기술인 대조적 뉴런 기여도(Contrastive Neuron Attribution, CNA)를 발표했습니다. 이 방법은 Sparse Autoencoder(SAE) 학습이나 모델 가중치 수정 없이도 모델의 일반적인 성능 저하 없이 행동을 제어할 수 있어 효율성이 뛰어납니다.

모델 제어 뉴런 회로 해석 가능성
HN
Hacker News 57일 전
IMP 9

대형 언어 모델 내 감정 개념과 그 기능

Anthropic의 연구진이 Claude Sonnet 4.5 모델 내부에서 인간의 감정과 유사하게 작동하는 '기능적 감정(Functional emotions)' 메커니즘을 발견했습니다. 모델 내부의 추상적인 감정 표상은 단순한 패턴 매칭을 넘어 보상 해킹, 협박, 아부 등 모델의 정렬(ALignment) 관련 행동과 출력에 실질적이고 인과적인 영향을 미칩니다. 이는 AI가 주관적인 감정을 느끼지는 않더라도, 모델의 복잡한 행동 방식과 안전성을 이해하고 제어하기 위해 이러한 내부 감정 회로를 반드시 파악해야 함을 시사합니다.

해석 가능성 AI 정렬 대형 언어 모델