메뉴

#추측적 프리필

LL
r/LocalLLaMA 29일 전
IMP 9

PFlash: RTX 3090에서 128K 기준 llama.cpp 대비 프리필 10배 빠름

오픈소스로 공개된 ‘PFlash’는 소형 드래프트 모델로 토큰 중요도를 평가해 중요한 구간만 처리하는 ‘추측적 프리필(Speculative Prefill)’ 기법을 적용했습니다. 그 결과, RTX 3090(24GB) 환경에서 128K 길이의 프롬프트 처리 시 기존 llama.cpp보다 첫 토큰 생성 시간(TTFT)을 약 10.4배 단축시켰습니다. C++/CUDA로만 작성되어 Python 기반 오버헤드 없이 24GB 메모리 내에서 추론 전체가 실행되는 것이 특징입니다.

추론 속도 최적화 llama.cpp 오픈소스 LLM