메뉴

#데이터 오염

TD
The Decoder 32일 전
IMP 7

1930년 이전 지식만 배운 LLM이 그린 2026년 세상

AI 연구진이 1931년 이전 텍스트 데이터로만 학습된 130억 파라미터 규모의 빈티지 언어 모델 '토키(Talkie)'를 공개했습니다. 이 모델은 2차 세계대전이 일어나지 않을 것이라고 믿으며, 2026년을 증기선과 철도가 지배하는 낭만적인 미래로 묘사합니다. 이 프로젝트는 특정 시대의 인지적 한계 내에서 AI가 세상을 어떻게 이해하고 예측하는지 보여준다는 점에서 중요한 의미를 갖습니다.

빈티지 언어 모델 알렉 라드포드 시대적 편향성
HN
Hacker News 33일 전
IMP 7

1930년대 텍스트로 학습된 빈티지 언어모델

1931년 이전의 텍스트만으로 학습된 13B(130억 파라미터) 규모의 '빈티지 언어 모델(vintage LM)'인 Talkie가 공개되었습니다. 이 모델은 과거 사람과 대화하는 듯한 경험을 제공할 뿐만 아니라, 현대 AI가 갖고 있는 데이터 오염(contamination) 문제를 원천적으로 차단하여 AI의 일반화 및 추론 능력을 평가하는 순수한 연구 환경을 제공합니다. 연구진은 이를 통해 모델이 미래를 예측하거나 새로운 발명품을 독립적으로 발견하는 등의 능력을 테스트하며 AI의 본질적인 성능을 이해하는 데 활용할 수 있을 것으로 기대하고 있습니다.

빈티지 언어 모델 AI 평가 데이터 오염