메뉴

#인공지능 안전성

MP
MarkTechPost 23일 전
IMP 8

Anthropic, 클로드의 AI '생각'을 텍스트로 해석하는 기술 발표

Anthropic이 모델 내부의 복잡한 활성화(Activation) 값을 사람이 읽을 수 있는 자연어로 직접 변환하는 '자연어 오토인코더(NLA)' 기술을 발표했습니다. 이 기술은 모델이 출력하지 않는 숨겨진 내부 의도나 평가 상황을 인지하는지를 파악해 AI의 안전성과 설명 가능성을 크게 높여줍니다.

설명 가능한 AI (XAI) Anthropic 클로드 (Claude)