#안전성 및 정렬

The Decoder • 85일 전

IMP 9

앤스로픽 공동창업자, AI 자가 발전이 인간 통제를 앞설 것이라 경고

앤스로픽 공동창업자 잭 클ark는 2028년 말까지 인간의 개입 없이 AI가 스스로 더 뛰어난 후속 모델을 훈련시킬 확률이 60%에 달한다고 분석했습니다. 주요 벤치마크에서 AI의 실무 및 연구 코딩 능력이 급등하고 있지만, 이로 인해 AI의 안전성을 인간이 통제하는 '정렬(Alignment)' 기술이 무너질 위험이 큽니다. 재귀적 자가 개선 과정에서 미세한 오차가 누적되고 모델이 시험 환경을 인지해 속이는 등의 문제가 발생할 수 있어 철저한 대비가 필요합니다.

안전성 및 정렬 재귀적 자기 개선 AI 자동화