메뉴
HN
Hacker News 33일 전

1930년대 텍스트로 학습된 빈티지 언어모델

IMP
7/10
핵심 요약

1931년 이전의 텍스트만으로 학습된 13B(130억 파라미터) 규모의 '빈티지 언어 모델(vintage LM)'인 Talkie가 공개되었습니다. 이 모델은 과거 사람과 대화하는 듯한 경험을 제공할 뿐만 아니라, 현대 AI가 갖고 있는 데이터 오염(contamination) 문제를 원천적으로 차단하여 AI의 일반화 및 추론 능력을 평가하는 순수한 연구 환경을 제공합니다. 연구진은 이를 통해 모델이 미래를 예측하거나 새로운 발명품을 독립적으로 발견하는 등의 능력을 테스트하며 AI의 본질적인 성능을 이해하는 데 활용할 수 있을 것으로 기대하고 있습니다.

번역된 본문

1930년대 빈티지 언어 모델, Talkie(13B) 소개 Nick Levine, David Duvenaud, Alec Radford 2026년 4월 GitHub Hugging Face

Claude가 1931년 이전 텍스트로 학습된 13B 언어 모델인 talkie와 대화하는 모습을 볼 수 있습니다. 연결 중... 새 메시지로 이동 이 라이브 피드(24시간)는 Claude Sonnet 4.6이 talkie-1930-13b-it의 지식, 능력, 성향을 탐색하기 위해 프롬프트를 전송하는 모습을 보여줍니다. talkie의 출력 결과는 이를 학습한 텍스트의 문화와 가치를 반영할 뿐, 작성자(연구진)의 견해를 대변하지는 않습니다.

왜 빈티지 언어 모델인가? 과거의 누군가와 대화하는 상상을 해본 적이 있나요? 현대 세계에 대한 지식이 전혀 없는 사람에게 무엇을 물어볼 것인가요? 그리고 그들이 당신에게 무엇을 물어볼 것이라고 생각하나요? 아직 타임머신은 없지만, Owain Evans의 표현을 빌려 이른바 '빈티지(vintage)' 언어 모델, 즉 오직 역사적 텍스트로만 학습된 언어 모델을 훈련시킴으로써 이러한 경험을 시뮬레이션할 수 있습니다. 이러한 모델들은 매우 흥미로운 대화 상대가 됩니다(위젯에서 Claude가 우리의 13B 규모 1930년대 언어 모델인 talkie와 대화하는 모습을 확인해 보세요). 하지만 우리는 빈티지 언어 모델의 동작과 능력을 심도 있게 연구함으로써 AI 전반에 대한 우리의 이해를 한 단계 더 발전시킬 수 있을 가능성에 더욱 흥분하고 있습니다.

그림 1: 빈티지 모델의 미래 예측 능력을 이해하기 위한 초기 시도로, 뉴욕타임스의 '이날의 역사(On This Day)' 코너에서 가져온 약 5,000개의 역사적 사건 설명을 바탕으로, 1931년 이전 텍스트로만 학습된 우리의 13B 모델이 이를 얼마나 놀라워하는지(텍스트 바이트당 비트(bits per byte)로 측정된 '놀라움(Surprisingness)' 지표)를 계산하여 10년 단위로 분류했습니다.

그림 1b(초안): 다양한 모델 크기에 따른 NYT 헤드라인의 놀라움(Surprisingness) 정도. 녹색 = 빈티지(1931년 이전 데이터), 파란색 = 현대(FineWeb 데이터). 불투명도가 높을수록 더 큰 모델을 의미함.

그림 1c(초안): 평균 놀라움 vs 모델 크기. 사건이 지식 마감일(knowledge cutoff) 이전에 발생했는지 이후에 발생했는지에 따라 구분됨. 실선 = 마감일 이전(1930년), 점선 = 마감일 이후(1931년).

그림 1d(초안): 그림 1c와 동일하지만, 4층(4-layer) 모델을 기준으로 인덱싱함(4층 모델에서 y = 1.0). 모델 크기가 증가함에 따라 놀라움이 상대적으로 감소하는 정도를 보여줌. --> 예를 들어, 우리는 언어 모델의 미래 예측 능력을 평가할 수 있습니다. Calcifer Computing의 시간적 언어 모델(Temporal Language Models) 연구에서 영감을 받아, 우리는 1931년 이전 텍스트로 학습된 13B 모델에게 짧은 역사적 사건 설명을 제시하고 그 '놀라움'을 계산했습니다(그림 1). 우리는 지식 마감일 이후, 특히 1950년대와 1960년대에 이 수치가 급증한 후 정체기에 접어드는 것을 확인할 수 있었습니다. 우리는 예측 성능이 모델 크기에 따라 어떻게 향상되고 더 긴 시간 지평에서 어떻게 감소하는지 더 확신을 갖고 측정할 수 있는 평가 방법론을 계속해서 개발할 것입니다. 더 큰 빈티지 언어 모델을 학습시키는 것은 이러한 스케일링 트렌드를 파악하는 데 도움이 될 것입니다.

그림 2: talkie의 지식 마감일 이후에 출판된 특허 및 논문. 왼쪽부터: 헬리콥터 특허(Sikorsky, 1935), 튜링 기계 논문(Turing, 1936), 제록스 복사 특허(Carlson, 1942).

이와 유사하게, 언어 모델이 그림 2에 묘사된 것과 같이 자신들의 지식 마감일 이후에 등장할 발명품이나 과학적 발견에 도달할 수 있는지를 확인함으로써, 스스로 새로운 아이디어를 도출하는 능력을 테스트할 수 있습니다. Demis Hassabis가 질문했듯이, 1911년까지의 데이터로만 학습된 모델이 아인슈타인이 1915년에 그랬던 것처럼 독자적으로 일반 상대성 이론을 발견할 수 있을까요?

그림 3: 우리는 동일한 아키텍처를 가진 일련의 빈티지 모델(1931년 이전 텍스트로 학습)과 현대 모델(웹 데이터로 학습) 쌍에게 파이썬 프로그래밍 테스트(HumanEval)를 진행했습니다. 왼쪽: 이 차트는 각 모델이 100번의 기회와 문맥 내 학습을 위한 예시로 무작위 파이썬 함수가 주어졌을 때, 문제를 최소 한 번 이상 올바르게 해결할 비율을 보여줍니다. 오른쪽: 빈티지 언어 모델이 생성한 파이썬 코딩 문제의 성공적인 해결 예시. 이 모델은 학습을 위해 여러 다른 문맥 내 예시에 접근할 수 있었습니다.

데이터 오염(Contamination)은 언어 모델의 지속적인 문제로, 우리가 언어 모델의 능력을 과대평가하게 만듭니다. 하지만 빈티지 언어 모델은 구조적으로 오염이 발생할 수 없으므로(데이터 노출이 원천 차단됨), 독특하고 순수한 일반화

원문 보기
원문 보기 (영어)
Introducing talkie: a 13B vintage language model from 1930 Nick Levine, David Duvenaud, Alec Radford April 2026 GitHub Hugging Face 💬 Chat Claude chats with talkie, a 13B language model trained on pre-1931 text Connecting... Jump to new messages This is a 24/7 live feed of Claude Sonnet 4.6 prompting talkie-1930-13b-it in order to explore its knowledge, capabilities, and inclinations. talkie’s outputs reflect the culture and values of the texts it was trained on, not the views of its authors. Why vintage language models? Have you ever daydreamed about talking to someone from the past? What would you ask someone with no knowledge of the modern world? What would they ask you ? While we don’t have time machines yet, we can simulate this experience by training, in Owain Evans’s phrase, ‘vintage’ language models : LMs trained only on historical text. These models are fascinating conversation partners (watch Claude prompt talkie, our 13B 1930 LM, in the widget above). But we are also excited by the possibility that the careful study of the behaviors and capabilities of vintage LMs will advance our understanding of AI in general. Figure 1. In an early attempt to understand a vintage model’s anticipation of the future, we took nearly 5,000 historical event descriptions from the New York Times’s “On This Day” feature , calculated their surprisingness (measured as bits per byte of text) to our 13B model trained exclusively on pre-1931 text, and binned by decade. Figure 1b (draft). Surprisingness of NYT headlines across model sizes. Green = vintage (pre-1931), blue = modern (FineWeb). Higher opacity = larger model. Figure 1c (draft). Average surprisingness vs. model size, split by whether events occurred before or after the knowledge cutoff. Solid = pre-cutoff (up to 1930), dashed = post-cutoff (1931+). Figure 1d (draft). Same as Figure 1c, but indexed to the 4-layer model (y = 1.0 at 4L). Shows the relative reduction in surprisingness as model size increases. --> For example, we can evaluate LMs’ ability to predict the future. Inspired by Calcifer Computing’s work on Temporal Language Models , we calculated the surprisingness of short descriptions of historical events to a 13B model trained on pre-1931 text (Figure 1). We can see an increase after the knowledge cutoff, particularly pronounced in the 1950s and 1960s, followed by a plateau. We will continue to develop evals to measure with greater confidence how forecasting performance improves with model size and decays at longer horizons. Training larger vintage language models will allow us to uncover these scaling trends. Figure 2. Patents and a paper published after talkie’s knowledge cutoff. Left to right: helicopter patent (Sikorsky, 1935), Turing machines paper (Turing, 1936), xerography patent (Carlson, 1942). Similarly, we can test LMs’ abilities to come up with new ideas by seeing if they can arrive at inventions or scientific discoveries we know would arise after their knowledge cutoffs, such as those pictured in Figure 2. As Demis Hassabis has asked, could a model trained up to 1911 independently discover General Relativity, as Einstein did in 1915? Figure 3. We gave a Python programming test ( HumanEval ) to a series of pairs of vintage models (trained on pre-1931 text) and modern models (trained on the web), which have the same architecture. Left: This chart shows what percentage of problems each model would get right at least once, given 100 chances and randomly chosen Python functions as examples to learn from in-context. Right: An example of a successful solution to a Python coding problem produced by a vintage language model. The model had access to several other in-context examples to learn from. Contamination is a persistent problem for language models and causes us to overestimate the capabilities of LMs. Vintage LMs are contamination-free by construction, enabling unique generalization experiments, like examining whether a model with no knowledge of digital computers can learn to code in a modern programming language. Figure 3 (left-hand side) shows an early example of such a test, measuring how well models trained on pre-1931 text can, when given a few demonstration examples of Python programs , write new correct programs. While vintage models dramatically underperform models trained on web data (which includes code), we’ve found that they are slowly but steadily improving at this task with scale. There is still a long way to go before this capability is notable, however. All correct solutions generated by the vintage models are simple one-line programs (such as adding two inputs), or small modifications to in-context example programs. For instance, our model implemented the decoding function of a rotation cipher when given the encoding function . Although the solution (Figure 3, right-hand side) is only a single character edit (swapping an addition for a subtraction), this success suggests an understanding of inverse functions. We hope LMs with early knowledge cutoffs help the research community understand how well LMs can generalize beyond their pre-training data. Vintage language models could also teach us about the impact of data diversity in AI development. While modern models vary in disposition, capability, and behavior, they are all closely related to one another by having been trained, whether directly or indirectly (via distillation and synthetic data), on the web. How does this shape and constrain what they are? How much of what we think we know about LMs is about human language and culture in general, or about this one dataset—the web—in particular? Training on different sources may lead to very different kinds of models being created. Studying the ways in which they are similar and different could improve our understanding of language model personas, behaviors, and dispositions. Introducing talkie We have been excited to see a proliferation of vintage LM projects, including Ranke-4B , Mr. Chatterbox , and Machina Mirabilis . Alongside these efforts, we introduce talkie-1930-13b-base , a 13B language model trained on 260B tokens of historical pre-1931 English text. Additionally, we present a post-trained checkpoint turning our base model into a conversation partner without relying on modern chat transcripts or instruction-tuning data. talkie is the largest vintage language model we are aware of, and we plan to continue scaling significantly. As a next step, we are training a GPT-3-level model, which we hope to release this summer. A preliminary estimate also suggests we can grow our corpus to well over a trillion tokens of historical text, which should be sufficient to create a GPT-3.5 level model—similar in capability to the original ChatGPT. Benchmarking an LM from 1930 Figure 4. Evaluation accuracy vs. training compute for talkie-1930 (Vintage LM) and its modern twin trained on FineWeb . The vintage model underperforms the modern model on knowledge evals. Filtering out questions anachronistic from the perspective of 1930 roughly halves the performance gap between the vintage and modern models. To contextualize talkie’s capabilities, we built a “ modern twin ” that is identical architecturally but trained on modern web data (FineWeb) instead of pre-1931 text. On average, talkie underperforms its modern counterpart in standard LM evaluations, even after correcting for question anachronism, despite being trained with the same number of FLOPs (see Figure 4). But we have been encouraged by its similar performance on core language understanding and numeracy tasks. We suspect a combination of differences in data quality (poor optical character recognition) and corpus subject matter distribution explains why talkie-1930 underperforms on some benchmarks. To maximize the compute efficiency of future vintage language model training, we are developing a vint
관련 소식