#추측적 디코딩

구글 AI, Gemma 4용 MTP 공개…품질 손실 없이 최대 3배 빠른 추론

구글 AI가 Gemma 4 모델 패밀리를 위해 다중 토큰 예측(MTP) 초안화기(Drafter)를 새롭게 공개했습니다. 이 도구는 추측적 디코딩(Speculative Decoding) 기술을 활용하여 모델의 품질 저하 없이 최대 3배 빠른 추론 속도를 달성합니다. 이는 실시간 애플리케이션이나 대규모 데이터 처리를 다루는 개발자들에게 AI 모델의 지연 시간을 획기적으로 줄여줄 매우 중요한 성능 개선입니다.

구글 AI Gemma 4 추론 속도 최적화

MarkTechPost • 88일 전

IMP 8

엔비디아, 강화학습에 추론 디코딩 도입해 속도 최대 1.8배 향상

NVIDIA 연구팀이 언어 모델의 강화학습 훈련 루프에 추측적 디코딩(Speculative Decoding)을 통합하여, 모델 출력 분포 손실 없이 롤아웃 생성 속도를 1.8배 향상시키는 기술을 선보였습니다. 이 방식은 기존의 처리량 증가를 위해 훈련 충실도를 희생해야 했던 문제를 해결하여, 모델 성능 저하 없이 완벽한 속도 개선을 이뤄냈다는 점에서 매우 중요합니다.

NVIDIA 강화학습 추측적 디코딩