언어 모델도 수면이 필요하다
최근 트랜스포머 기반 대형 언어 모델(LLM)은 문맥 길이가 길어질수록 어텐션 메커니즘의 연산 효율이 급격히 떨어지는 한계를 보입니다. 이를 해결하기 위해 본 논문은 인간의 '수면'과 유사한 통합 메커니즘을 제안하여, 모델이 최근 문맥을 영구적인 빠른 가중치(fast weights)로 변환하고 기존의 키-값 캐시를 초기화하는 방식을 도입했습니다. 기존 모델들이 실패한 복잡한 수학적 추론 작업에서도 이 방법론이 뛰어난 성능 향상을 보여주며, 깊은 추론이 필요한 문제일수록 효과가 극대화된다는 점이 핵심적인 성과입니다.
컴퓨터 과학 > 계산 및 언어 arXiv:2605.26099 (cs) [2026년 5월 25일 제출]
제목: 언어 모델은 수면이 필요하다 (Language Models Need Sleep) 저자: Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti
초록: 트랜스포머(Transformer) 기반 대형 언어 모델은 점차 더 장기적인 문맥을 요구하는 작업에 폭넓게 사용되고 있습니다. 하지만 이들의 어텐션(attention) 메커니즘은 문맥 길이가 길어질수록 확장성 측면에서 비효율적이라는 단점이 있습니다. 이를 해결하기 위해 우리는 모델이 주기적으로 최근 문맥을 영구적인 빠른 가중치(fast weights)로 변환한 뒤, 키-값 캐시(key-value cache)를 초기화하는 일종의 '수면과 같은 통합(consolidation) 메커니즘'을 연구했습니다. 수면 단계에서 모델은 축적된 문맥에 대해 $N$회의 오프라인 순환 패스(recurrent passes)를 수행하며, 학습된 국소적 규칙(learned local rule)을 통해 상태 공간 모델(SSM) 블록 내의 빠른 가중치를 업데이트합니다. 추론(inference) 시에는 이 과정을 통해 수면 단계로 추가적인 연산을 분산시키면서도, 깨어 있는 상태의 예측 대기 시간(latency)은 그대로 유지할 수 있습니다. 우리는 이 방법을 세포 자동자(cellular automata) 및 다중 홉 그래프 검색(multi-hop graph retrieval)을 포함하는 제어된 합성 작업과 현실적인 수학 추론 작업에서 테스트했습니다. 이 작업들은 기존의 일반적인 트랜스포머 및 SSM-어텐션 하이브리드 모델들도 해결하지 못했던 난제들입니다. 실험 결과, 우리 모델의 수면 기간($N$)을 늘릴수록 전반적인 성능이 향상되며, 특히 더 깊은 추론이 요구되는 예제에서 가장 큰 성능 향상을 보이는 것으로 나타났습니다.
주제: 계산 및 언어 (cs.CL), 인공지능 (cs.AI) 인용: arXiv:2605.26099 [cs.CL]로 인용 (또는 이 버전의 경우 arXiv:2605.26099v1 [cs.CL]) https://doi.org/10.48550/arXiv.2605.26099
제출 이력 작성자: Sangyun Lee [이메일 보기] [v1] 2026년 5월 25일(월) 17:55:39 UTC (319 KB)