1930년대 텍스트로 학습된 빈티지 언어모델
1931년 이전의 텍스트만으로 학습된 13B(130억 파라미터) 규모의 '빈티지 언어 모델(vintage LM)'인 Talkie가 공개되었습니다. 이 모델은 과거 사람과 대화하는 듯한 경험을 제공할 뿐만 아니라, 현대 AI가 갖고 있는 데이터 오염(contamination) 문제를 원천적으로 차단하여 AI의 일반화 및 추론 능력을 평가하는 순수한 연구 환경을 제공합니다. 연구진은 이를 통해 모델이 미래를 예측하거나 새로운 발명품을 독립적으로 발견하는 등의 능력을 테스트하며 AI의 본질적인 성능을 이해하는 데 활용할 수 있을 것으로 기대하고 있습니다.
1930년대 빈티지 언어 모델, Talkie(13B) 소개 Nick Levine, David Duvenaud, Alec Radford 2026년 4월 GitHub Hugging Face
Claude가 1931년 이전 텍스트로 학습된 13B 언어 모델인 talkie와 대화하는 모습을 볼 수 있습니다. 연결 중... 새 메시지로 이동 이 라이브 피드(24시간)는 Claude Sonnet 4.6이 talkie-1930-13b-it의 지식, 능력, 성향을 탐색하기 위해 프롬프트를 전송하는 모습을 보여줍니다. talkie의 출력 결과는 이를 학습한 텍스트의 문화와 가치를 반영할 뿐, 작성자(연구진)의 견해를 대변하지는 않습니다.
왜 빈티지 언어 모델인가? 과거의 누군가와 대화하는 상상을 해본 적이 있나요? 현대 세계에 대한 지식이 전혀 없는 사람에게 무엇을 물어볼 것인가요? 그리고 그들이 당신에게 무엇을 물어볼 것이라고 생각하나요? 아직 타임머신은 없지만, Owain Evans의 표현을 빌려 이른바 '빈티지(vintage)' 언어 모델, 즉 오직 역사적 텍스트로만 학습된 언어 모델을 훈련시킴으로써 이러한 경험을 시뮬레이션할 수 있습니다. 이러한 모델들은 매우 흥미로운 대화 상대가 됩니다(위젯에서 Claude가 우리의 13B 규모 1930년대 언어 모델인 talkie와 대화하는 모습을 확인해 보세요). 하지만 우리는 빈티지 언어 모델의 동작과 능력을 심도 있게 연구함으로써 AI 전반에 대한 우리의 이해를 한 단계 더 발전시킬 수 있을 가능성에 더욱 흥분하고 있습니다.
그림 1: 빈티지 모델의 미래 예측 능력을 이해하기 위한 초기 시도로, 뉴욕타임스의 '이날의 역사(On This Day)' 코너에서 가져온 약 5,000개의 역사적 사건 설명을 바탕으로, 1931년 이전 텍스트로만 학습된 우리의 13B 모델이 이를 얼마나 놀라워하는지(텍스트 바이트당 비트(bits per byte)로 측정된 '놀라움(Surprisingness)' 지표)를 계산하여 10년 단위로 분류했습니다.
그림 1b(초안): 다양한 모델 크기에 따른 NYT 헤드라인의 놀라움(Surprisingness) 정도. 녹색 = 빈티지(1931년 이전 데이터), 파란색 = 현대(FineWeb 데이터). 불투명도가 높을수록 더 큰 모델을 의미함.
그림 1c(초안): 평균 놀라움 vs 모델 크기. 사건이 지식 마감일(knowledge cutoff) 이전에 발생했는지 이후에 발생했는지에 따라 구분됨. 실선 = 마감일 이전(1930년), 점선 = 마감일 이후(1931년).
그림 1d(초안): 그림 1c와 동일하지만, 4층(4-layer) 모델을 기준으로 인덱싱함(4층 모델에서 y = 1.0). 모델 크기가 증가함에 따라 놀라움이 상대적으로 감소하는 정도를 보여줌. --> 예를 들어, 우리는 언어 모델의 미래 예측 능력을 평가할 수 있습니다. Calcifer Computing의 시간적 언어 모델(Temporal Language Models) 연구에서 영감을 받아, 우리는 1931년 이전 텍스트로 학습된 13B 모델에게 짧은 역사적 사건 설명을 제시하고 그 '놀라움'을 계산했습니다(그림 1). 우리는 지식 마감일 이후, 특히 1950년대와 1960년대에 이 수치가 급증한 후 정체기에 접어드는 것을 확인할 수 있었습니다. 우리는 예측 성능이 모델 크기에 따라 어떻게 향상되고 더 긴 시간 지평에서 어떻게 감소하는지 더 확신을 갖고 측정할 수 있는 평가 방법론을 계속해서 개발할 것입니다. 더 큰 빈티지 언어 모델을 학습시키는 것은 이러한 스케일링 트렌드를 파악하는 데 도움이 될 것입니다.
그림 2: talkie의 지식 마감일 이후에 출판된 특허 및 논문. 왼쪽부터: 헬리콥터 특허(Sikorsky, 1935), 튜링 기계 논문(Turing, 1936), 제록스 복사 특허(Carlson, 1942).
이와 유사하게, 언어 모델이 그림 2에 묘사된 것과 같이 자신들의 지식 마감일 이후에 등장할 발명품이나 과학적 발견에 도달할 수 있는지를 확인함으로써, 스스로 새로운 아이디어를 도출하는 능력을 테스트할 수 있습니다. Demis Hassabis가 질문했듯이, 1911년까지의 데이터로만 학습된 모델이 아인슈타인이 1915년에 그랬던 것처럼 독자적으로 일반 상대성 이론을 발견할 수 있을까요?
그림 3: 우리는 동일한 아키텍처를 가진 일련의 빈티지 모델(1931년 이전 텍스트로 학습)과 현대 모델(웹 데이터로 학습) 쌍에게 파이썬 프로그래밍 테스트(HumanEval)를 진행했습니다. 왼쪽: 이 차트는 각 모델이 100번의 기회와 문맥 내 학습을 위한 예시로 무작위 파이썬 함수가 주어졌을 때, 문제를 최소 한 번 이상 올바르게 해결할 비율을 보여줍니다. 오른쪽: 빈티지 언어 모델이 생성한 파이썬 코딩 문제의 성공적인 해결 예시. 이 모델은 학습을 위해 여러 다른 문맥 내 예시에 접근할 수 있었습니다.
데이터 오염(Contamination)은 언어 모델의 지속적인 문제로, 우리가 언어 모델의 능력을 과대평가하게 만듭니다. 하지만 빈티지 언어 모델은 구조적으로 오염이 발생할 수 없으므로(데이터 노출이 원천 차단됨), 독특하고 순수한 일반화