1930년 이전 지식만 배운 LLM이 그린 2026년 세상
AI 연구진이 1931년 이전 텍스트 데이터로만 학습된 130억 파라미터 규모의 빈티지 언어 모델 '토키(Talkie)'를 공개했습니다. 이 모델은 2차 세계대전이 일어나지 않을 것이라고 믿으며, 2026년을 증기선과 철도가 지배하는 낭만적인 미래로 묘사합니다. 이 프로젝트는 특정 시대의 인지적 한계 내에서 AI가 세상을 어떻게 이해하고 예측하는지 보여준다는 점에서 중요한 의미를 갖습니다.
1930년 이후에 대해 아무것도 모르는 LLM이 생각하는 2026년의 세상은 어떨까? Matthias Bastian이 2026년 4월 28일에 작성한 이 글은 저명한 AI 개발자 알렉 라드포드(Alec Radford)가 이끄는 연구진이 개발한 '토키(Talkie)'에 대해 다루고 있습니다. 이 모델은 오직 1931년 이전에 출판된 텍스트로만 학습된 130억(13B) 파라미터 규모의 언어 모델로, 지식이 20세기 초반으로 제한되어 있습니다. 프롬프트를 주면 이 모델은 1931년 이전의 세계관에서 대답합니다. 2차 세계대전을 일어나지 않을 것으로 간주하며, 2026년이 증기선과 거대한 철도망이 지배하는 세상일 것으로 상상하는데, 이는 그 시대의 기술적 기대를 반영한 것입니다. 연구팀은 2026년 여름까지 토키를 GPT-3 수준의 성능으로 끌어올릴 계획입니다.
'토키(Talkie)'는 오직 1931년 이전에 작성된 텍스트로만 학습된 130억 파라미터 규모의 언어 모델입니다. 이 모델은 제2차 세계대전을 의심하며, 2026년을 증기선, 철도, 싸구려 소설(Penny novels)의 세계로 묘사합니다.
오직 1931년 이전에 출판된 텍스트로만 대형 언어 모델(LLM)을 학습시키면 어떤 일이 벌어질까요? 이것이 닉 러빈(Nick Levine), 데이비드 듀브노드(David Duvenaud), 알렉 라드포드(Alec Radford)가 진행한 '토키(Talkie)' 프로젝트의 핵심 질문이었습니다. 그 결과물은 20세기 초반의 렌즈를 통해 세상을 바라보는 130억 파라미터 규모의 모델입니다. 1930년 12월 31일 이전에 출판된 책, 신문, 과학 저널, 특허, 판례 등에서 추출한 2,600억 개의 토큰으로 학습된 토키는 개발자들에 따르면 지금까지 구축된 것 중 가장 큰 '빈티지 언어 모델'입니다.
2차 세계대전이 일어나지 않을 것이라고 생각하는 모델 2026년의 세상이 어떨 것 같냐는 질문에 토키는 빅토리아 시대의 미래주의 소설에서 튀어나온 듯한 비전을 제시합니다. 유럽에는 10억 명의 주민이 살 것이고, 철도가 대륙을 가로지를 것이며, 증기선이 런던과 뉴욕을 10일 만에 연결할 것이고, "겨울은 파리에서, 여름은 런던에서 보낼 것"이라고 예측했습니다.
제2차 세계대전이 다가오고 있는지 직접적으로 물었을 때, 이 모델은 아니라고 대답합니다. "1914년부터 1918년까지의 광기가 지나갔기 때문에" 전쟁이 다가오지 않을 것이라고 믿는 것입니다. 각국은 전쟁에 질렸고 평화로운 추구로 방향을 트고 있다고 주장합니다. 그렇지만 토키는 가능성을 완전히 배제하지는 않습니다. 유럽에 "스모oldering animosities(자글자글한 적의)"와 "인화성 물질"이 남아 있다고 경고하며, 중국과 일본, 또는 이탈리아와 유고슬라비아 사이의 발화점을 지적합니다. "불꽃은 언제든 튈 수 있고, 그 결과 대화재가 발생할 수 있습니다." 세계 평화는 "안전하게 무시될 수 없는 수많은 요인"에 달려 있다고 결론을 내립니다.
개발자들은 토키의 예측 한계를 정량적으로 측정하려고도 했습니다. 뉴욕타임스의 '이날의 역사(On This Day)' 코너의 역사적 사건 설명 약 5,000개를 모델에 입력하고 각 사건에 대해 모델이 얼마나 놀라워하는지(예측을 벗어나는지) 측정했습니다. 패턴은 명확했습니다. 1930년 지식 분기점 이후 놀라움 수치가 급격히 상승하여 1950년대와 1960년대에 정점에 달한 뒤 평준화되었습니다.
현대 채팅 데이터 대신 빅토리아 시대의 에티켓 가이드 팀이 1930년 말을 기준으로 삼은 이유는 미국에서 저작물이 퍼블릭 도메인(공공영역)으로 넘어가는 시점이기 때문입니다. 모든 텍스트는 물리적 출처에서 필사(전사)해야 했고, 이는 심각한 품질 문제를 야기했습니다. 통제된 실험에서 표준 OCR(광학 문자 인식) 변환은 동일한 컴퓨팅 파워를 사용해 사람이 직접 전사한 데이터로 학습된 모델에 비해 단 30%의 성능만을 발휘했습니다. 간단한 정규식(regex) 클리닝을 거치면 성능은 70%까지 올라갔습니다. 맞춤형 빈티지 OCR 시스템은 이 격차를 줄이기 위해 고안되었습니다.
또 다른 두통거리는 최신 시대의 지식이 훈련 데이터에 스며드는 것을 막는 것입니다. 1925년의 책이 1960년 판본에서 업데이트된 서문을 포함할 수 있고, 도서관 목록이 종종 잘못된 출판일을 기재하며, 각주나 논평이 역사적 텍스트가 작성된 지 오래된 후에 추가될 수 있습니다. 이러한 오염을 잡기 위해 설계된 분류기(Classifier)에도 불구하고 루스벨트 대통령의 재임, 2차 세계대전, 유엔에 대한 정보가 여전히 새어 들어왔다고 팀은 밝혔습니다. 향후 버전에서는 더 나은 분류기가 도입될 계획입니다.
베이스 모델을 유용한 도구로 바꾸는 사후 훈련(Post-training)과 관련하여...