HN
Hacker News • 5일 전
IMP 8
EAGLE, vLLM, TorchSpec 3사 협업한 추론 속도 혁신
EAGLE, vLLM, TorchSpec 팀이 협력하여 대규모 언어 모델(LLM)의 추론 속도를 획기적으로 높이는 'EAGLE 3.1' 스페큘러티브 디코딩(Speculative Decoding) 알고리즘을 발표했습니다. 이번 업데이트는 긴 문맥이나 다양한 프롬프트 환경에서 발생하는 '어텐션 드리프트(Attention Drift)' 문제를 해결하여, 기존 대비 최대 2배 긴 컨텍스트 수용 길이를 달성하며 모델 배포 안정성을 크게 높였습니다. 또한 실제 서비스 모델인 Kimi K2.6용 드래프트 모델을 오픈소스로 공개하고 vLLM 메인 브랜치에 통합하여 산업계의 실사용성을 강화했다는 점에서 중요합니다.
추론 속도 최적화 스페큘러티브 디코딩 오픈소스