메뉴
HN
Hacker News 4일 전

언어 모델도 수면이 필요하다

IMP
8/10
핵심 요약

최근 트랜스포머 기반 대형 언어 모델(LLM)은 문맥 길이가 길어질수록 어텐션 메커니즘의 연산 효율이 급격히 떨어지는 한계를 보입니다. 이를 해결하기 위해 본 논문은 인간의 '수면'과 유사한 통합 메커니즘을 제안하여, 모델이 최근 문맥을 영구적인 빠른 가중치(fast weights)로 변환하고 기존의 키-값 캐시를 초기화하는 방식을 도입했습니다. 기존 모델들이 실패한 복잡한 수학적 추론 작업에서도 이 방법론이 뛰어난 성능 향상을 보여주며, 깊은 추론이 필요한 문제일수록 효과가 극대화된다는 점이 핵심적인 성과입니다.

번역된 본문

컴퓨터 과학 > 계산 및 언어 arXiv:2605.26099 (cs) [2026년 5월 25일 제출]

제목: 언어 모델은 수면이 필요하다 (Language Models Need Sleep) 저자: Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

초록: 트랜스포머(Transformer) 기반 대형 언어 모델은 점차 더 장기적인 문맥을 요구하는 작업에 폭넓게 사용되고 있습니다. 하지만 이들의 어텐션(attention) 메커니즘은 문맥 길이가 길어질수록 확장성 측면에서 비효율적이라는 단점이 있습니다. 이를 해결하기 위해 우리는 모델이 주기적으로 최근 문맥을 영구적인 빠른 가중치(fast weights)로 변환한 뒤, 키-값 캐시(key-value cache)를 초기화하는 일종의 '수면과 같은 통합(consolidation) 메커니즘'을 연구했습니다. 수면 단계에서 모델은 축적된 문맥에 대해 $N$회의 오프라인 순환 패스(recurrent passes)를 수행하며, 학습된 국소적 규칙(learned local rule)을 통해 상태 공간 모델(SSM) 블록 내의 빠른 가중치를 업데이트합니다. 추론(inference) 시에는 이 과정을 통해 수면 단계로 추가적인 연산을 분산시키면서도, 깨어 있는 상태의 예측 대기 시간(latency)은 그대로 유지할 수 있습니다. 우리는 이 방법을 세포 자동자(cellular automata) 및 다중 홉 그래프 검색(multi-hop graph retrieval)을 포함하는 제어된 합성 작업과 현실적인 수학 추론 작업에서 테스트했습니다. 이 작업들은 기존의 일반적인 트랜스포머 및 SSM-어텐션 하이브리드 모델들도 해결하지 못했던 난제들입니다. 실험 결과, 우리 모델의 수면 기간($N$)을 늘릴수록 전반적인 성능이 향상되며, 특히 더 깊은 추론이 요구되는 예제에서 가장 큰 성능 향상을 보이는 것으로 나타났습니다.

주제: 계산 및 언어 (cs.CL), 인공지능 (cs.AI) 인용: arXiv:2605.26099 [cs.CL]로 인용 (또는 이 버전의 경우 arXiv:2605.26099v1 [cs.CL]) https://doi.org/10.48550/arXiv.2605.26099

제출 이력 작성자: Sangyun Lee [이메일 보기] [v1] 2026년 5월 25일(월) 17:55:39 UTC (319 KB)

원문 보기
원문 보기 (영어)
--> Computer Science > Computation and Language arXiv:2605.26099 (cs) [Submitted on 25 May 2026] Title: Language Models Need Sleep Authors: Sangyun Lee , Sean McLeish , Tom Goldstein , Giulia Fanti View a PDF of the paper titled Language Models Need Sleep, by Sangyun Lee and 3 other authors View PDF HTML (experimental) Abstract: Transformer-based large language models are increasingly used for long-horizon tasks; however, their attention mechanism scales poorly with context length. To handle this, we study a sleep-like consolidation mechanism in which a model periodically converts recent context into persistent fast weights before clearing its key-value cache. During sleep, the model performs $N$ offline recurrent passes over the accumulated context and updates the fast weights in its state-space model (SSM) blocks through a learned local rule. During inference, this shifts extra computation to sleep while preserving the latency of wake-time prediction. We test our method on controlled synthetic tasks, including cellular automata and multi-hop graph retrieval, as well as a realistic math reasoning task, on which a regular transformer as well as SSM-attention hybrid models fail. We then show that increasing sleep duration $N$ for our models improves performance, with the largest gains on examples that require deeper reasoning. Subjects: Computation and Language (cs.CL) ; Artificial Intelligence (cs.AI) Cite as: arXiv:2605.26099 [cs.CL] (or arXiv:2605.26099v1 [cs.CL] for this version) https://doi.org/10.48550/arXiv.2605.26099 Focus to learn more arXiv-issued DOI via DataCite (pending registration) Submission history From: Sangyun Lee [ view email ] [v1] Mon, 25 May 2026 17:55:39 UTC (319 KB) Full-text links: Access Paper: View a PDF of the paper titled Language Models Need Sleep, by Sangyun Lee and 3 other authors View PDF HTML (experimental) TeX Source view license Current browse context: cs.CL < prev | next > new | recent | 2026-05 Change to browse by: cs cs.AI References & Citations NASA ADS Google Scholar Semantic Scholar export BibTeX citation Loading... BibTeX formatted citation &times; loading... Data provided by: Bookmark Bibliographic Tools Bibliographic and Citation Tools Bibliographic Explorer Toggle Bibliographic Explorer ( What is the Explorer? ) Connected Papers Toggle Connected Papers ( What is Connected Papers? ) Litmaps Toggle Litmaps ( What is Litmaps? ) scite.ai Toggle scite Smart Citations ( What are Smart Citations? ) Code, Data, Media Code, Data and Media Associated with this Article alphaXiv Toggle alphaXiv ( What is alphaXiv? ) Links to Code Toggle CatalyzeX Code Finder for Papers ( What is CatalyzeX? ) DagsHub Toggle DagsHub ( What is DagsHub? ) GotitPub Toggle Gotit.pub ( What is GotitPub? ) Huggingface Toggle Hugging Face ( What is Huggingface? ) ScienceCast Toggle ScienceCast ( What is ScienceCast? ) Demos Demos Replicate Toggle Replicate ( What is Replicate? ) Spaces Toggle Hugging Face Spaces ( What is Spaces? ) Spaces Toggle TXYZ.AI ( What is TXYZ.AI? ) Related Papers Recommenders and Search Tools Link to Influence Flower Influence Flower ( What are Influence Flowers? ) Core recommender toggle CORE Recommender ( What is CORE? ) Author Venue Institution Topic About arXivLabs arXivLabs: experimental projects with community collaborators arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website. Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them. Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs . Which authors of this paper are endorsers? | Disable MathJax ( What is MathJax? )