#ExLlamaV3

r/LocalLLaMA • 79일 전

IMP 8

ExLlamaV3 대규모 업데이트: DFlash 지원 및 속도 대폭 향상!

로컬 AI 추론 라이브러리인 ExLlamaV3가 대대적인 업데이트를 진행했습니다. 새로운 'DFlash' 기능을 지원하여 에이전트 및 코딩 작업에서 기존 대비 최대 3배 빠른 텍스트 생성 속도를 달성했습니다. 또한 Gemma 4 모델 지원을 추가하고, 주요 오픈소스 모델들에 대한 최적화를 통해 다양한 GPU 환경에서의 실행 효율성을 크게 높였습니다.

오픈소스 로컬 LLM 추론 최적화