MIT·NVIDIA, 트라이어텐션 제안…KV 캐시 10배 절감
MIT, NVIDIA, 저장대학 연구진이 대규모 언어 모델(LLM)의 메모리 병목 현상을 해결하기 위해 'TriAttention(트라이어텐션)'이라는 새로운 KV 캐시 압축 기법을 제안했습니다. 이 방법은 기존 방식들의 한계를 극복하여, 수학 추론 벤치마크에서 Full Attention과 동등한 정확도를 유지하면서도 처리량(Throughput)은 2.5배 높이거나 KV 메모리는 최대 10.7배 줄일 수 있습니다.
긴 사슬 추론(Long-chain reasoning)은 현대 대규모 언어 모델에서 가장 많은 컴퓨팅 자원을 요구하는 작업 중 하나입니다. DeepSeek-R1이나 Qwen3 같은 모델이 복잡한 수학 문제를 풀 때, 답에 도달하기 전에 수만 개의 토큰을 생성할 수 있습니다. 이러한 모든 토큰은 생성 중에 모델이 다시 참조해야 하는 Key와 Value 벡터를 저장하는 메모리 구조인 'KV 캐시'에 저장되어야 합니다. 추론 사슬이 길어질수록 KV 캐시는 커지며, 특히 소비자용 하드웨어 등 많은 배포 환경에서 이러한 증가는 결국 GPU 메모리를 완전히 고갈시키게 됩니다.
MIT, NVIDIA, 저장대학의 연구팀은 이 문제를 직접적으로 해결하는 TriAttention이라는 방법을 제안했습니다. 32K 토큰 생성이 포함된 AIME25 수학 추론 벤치마크에서 TriAttention은 Full Attention의 정확도와 일치하는 성능을 보여주면서도 2.5배 높은 처리량(Throughput)을 달성하거나 KV 메모리를 10.7倍로 줄였습니다. 동일한 효율 수준에서 기존의 선도적인 베이스라인 기법들은 정확도의 절반 수준밖에 달성하지 못했습니다.
기존 KV 캐시 압축의 문제점 TriAttention이 왜 중요한지 이해하려면 KV 캐시 압축에 대한 표준 접근 방식을 이해하는 것이 도움이 됩니다. SnapKV, H2O, R-KV를 포함한 대부분의 기존 방법들은 KV 캐시 내의 토큰 중 중요한 것을 추정하고 나머지를 제거(Evict)하는 방식으로 작동합니다. 중요도는 일반적으로 어텐션 점수(Attention scores)를 확인하여 추정합니다. 즉, 특정 Key가 최근 Query들로부터 높은 어텐션을 받는다면 중요하다고 판단하여 유지합니다.
문제는 이러한 방법들이 연구팀이 'Post-RoPE 공간'이라고 부르는 영역에서 작동한다는 것입니다. RoPE(회전 위치 임베딩, Rotary Position Embedding)는 Llama, Qwen, Mistral을 포함한 대부분의 최신 LLM이 사용하는 위치 인코딩 방식입니다. RoPE는 주파수에 의존적인 방식으로 Query와 Key 벡터를 회전시켜 위치를 인코딩합니다. 결과적으로 위치 10,000에 있는 Query 벡터는 위치 100에 있는 동일한 의미의 Query와 매우 다르게 보이는데, 그 방향이 위치 인코딩에 의해 회전되었기 때문입니다.
이러한 회전 때문에 현재 어떤 Key가 중요한지 추정하기에 방향이 '최신 상태'인 Query는 가장 최근에 생성된 것들뿐입니다. 이전 연구들은 이를 경험적으로 확인했습니다. 즉, 중요도 추정을 위한 관찰 윈도우를 넓히는 것은 도움이 되지 않으며, 성능은 약 25개의 Query에서 정점을 찍고 그 이후로는 감소합니다. 이렇게 관찰 윈도우가 작으면, 나중에 중요해질 일부 Key가 영구적으로 제거되는 문제가 발생합니다.
이 문제는 연구팀이 '검색 헤드(Retrieval heads)'라고 부르는 것, 즉 긴 문맥에서 특정 사실적 토큰을 검색하는 역할을 하는 어텐션 헤드에서 특히 심각합니다. 검색 헤드와 관련된 토큰은 갑자기 추론 사슬에 필수적인 요소가 되기 전까지 수천 개의 토큰 동안 휴면 상태로 있을 수 있습니다. 좁은 관찰 윈도우에서 작동하는 Post-RoPE 방식은 휴면 기간 동안 해당 토큰에 대한 낮은 어텐션을 보고 이를 영구적으로 제거해 버립니다. 모델이 나중에 해당 정보를 다시 불러와야 할 때 이미 정보가 사라진 상태이므로 사고의 사슬이 끊어지게 됩니다.
Pre-RoPE 관찰: Q/K 집중 현상 (Q/K Concentration) TriAttention의 핵심 통찰은 RoPE 회전이 적용되기 전의 공간인 Pre-RoPE 공간에서 Query와 Key 벡터를 살펴보는 데서 비롯됩니다. 연구팀이 이 공간에서 Q와 K 벡터를 시각화했을 때, 일관되고 놀라운 사실을 발견했습니다. 즉, 압도적인 다수의 어텐션 헤드와 여러 모델 아키텍처에서 Q와 K 벡터가 고정된 0이 아닌 중심점 주변으로 조밀하게 클러스터링(집중)되는 현상입니다.
연구팀은 이 특성을 'Q/K 집중 현상(Q/K Concentration)'이라고 명명하며, R이 1에 가까우면 조밀한 클러스터링을 의미하고 0에 가까우면 모든 방향으로 분산됨을 나타내는 방향 통계학의 표준 측정값인 '평균 결과 벡터 길이(Mean Resultant Length, R)'를 사용하여 이를 측정했습니다. Qwen3-8B 모델에서 약 90%의 어텐션 헤드가 R > 0.95를 나타내는 것으로 확인되었습니다.