메뉴

#KVCache

MP
MarkTechPost 41일 전
IMP 8

문샷 AI, 멀티 데이터센터 LLM 서빙 혁신

문샷 AI와 칭화대 연구진이 대규모 언어 모델(LLM)의 추론 방식을 혁신하는 멀티 데이터센터 서빙 아키텍처 'PrfaaS(Prefill-as-a-Service)'를 제안했습니다. 이 아키텍처는 연산 집약적인 프리필(Prefill) 작업을 별도의 클러스터로 분리하고, 하이브리드 어텐션 모델을 통해 크게 감소된 KVCache를 일반 이더넷망으로 전송하여 54% 높은 처리량을 달성합니다.

LLM 서빙 KVCache 분산 아키텍처
HN
Hacker News 42일 전
IMP 8

차세대 LLM 서비스 아키텍처: 데이터센터를 넘나드는 KVCache

대규모 언어 모델(LLM) 서비스를 위한 새로운 분산 아키텍처인 'Prefill-as-a-Service(PrfaaS)'를 제안하는 연구 논문입니다. 최신 하이브리드 어텐션 모델을 활용하여 KVCache 크기를 획기적으로 줄이고, 이를 일반 이더넷 망을 통해 다른 데이터센터로 전송하여 연산 부하를 분산시킵니다. 이를 통해 이기종 GPU 클러스터를 유연하게 확장할 수 있으며, 실험 결과 기존 방식 대비 최대 54% 높은 서비스 처리량을 달성하여 대규모 AI 인프라 운영에 매우 중요한 의미를 갖습니다.

인프라 스케일링 KVCache LLM 서비스