메뉴

#일반화 성능

HN
Hacker News 25일 전
IMP 8

왜 딥러닝은 작동하는가: 새로운 이론의 탐색

스탠퍼드 대학의 연구진이 고전적 통계학의 직관을 깨는 딥러닝의 '양성 과적합(Benign Overfitting)' 현상을 설명하려 시도합니다. 모델이 파라미터를 무한정 늘려 개별 데이터를 완벽히 암기함에도 불구하고, 실제로는 훌륭한 일반화 성능을 보여주는 현상의 배경을 짚어냅니다. 단순한 경험적 방법론을 넘어, 왜 딥러닝 모델이 테스트 환경에서도 우수한 성능을 내는지 그 이론적 기반을 다지는 중요한 글입니다.

딥러닝 이론 양성 과적합 일반화 성능
HN
Hacker News 33일 전
IMP 7

1930년대 텍스트로 학습된 빈티지 언어모델

1931년 이전의 텍스트만으로 학습된 13B(130억 파라미터) 규모의 '빈티지 언어 모델(vintage LM)'인 Talkie가 공개되었습니다. 이 모델은 과거 사람과 대화하는 듯한 경험을 제공할 뿐만 아니라, 현대 AI가 갖고 있는 데이터 오염(contamination) 문제를 원천적으로 차단하여 AI의 일반화 및 추론 능력을 평가하는 순수한 연구 환경을 제공합니다. 연구진은 이를 통해 모델이 미래를 예측하거나 새로운 발명품을 독립적으로 발견하는 등의 능력을 테스트하며 AI의 본질적인 성능을 이해하는 데 활용할 수 있을 것으로 기대하고 있습니다.

빈티지 언어 모델 AI 평가 데이터 오염