#어텐션

Hacker News • 74일 전

IMP 8

대형언어모델을 위한 효율적 온라인 메모리 δ-Mem

대형언어모델(LLM)의 장기 기억 및 에이전트 시스템에서 과거 정보를 효율적으로 재사용하기 위한 경량 메모리 메커니즘인 δ-Mem(델타-맴)이 제안되었습니다. 이 기술은 고정된 크기의 8x8 온라인 메모리 상태 행렬만 사용해 기존 모델의 성능을 평균 1.10배, 메모리 집약적 벤치마크에서는 최대 1.31배 향상시켰습니다. 전체 파인튜닝이나 모델 교체 없이 어텐션(Attention) 연산에 저위상 보정을 적용하는 방식으로 효율적인 메모리 활용을 입증했다는 점에서 실무적 가치가 높습니다.

인공지능 대형언어모델 메모리

미니맥스, 연산량 28배 줄인 희소 어텐션(MSA) 공개

대형언어모델을 위한 효율적 온라인 메모리 δ-Mem