MP
MarkTechPost • 29일 전
IMP 8
엔비디아, 강화학습에 추론 디코딩 도입해 속도 최대 1.8배 향상
NVIDIA 연구팀이 언어 모델의 강화학습 훈련 루프에 추측적 디코딩(Speculative Decoding)을 통합하여, 모델 출력 분포 손실 없이 롤아웃 생성 속도를 1.8배 향상시키는 기술을 선보였습니다. 이 방식은 기존의 처리량 증가를 위해 훈련 충실도를 희생해야 했던 문제를 해결하여, 모델 성능 저하 없이 완벽한 속도 개선을 이뤄냈다는 점에서 매우 중요합니다.
NVIDIA 강화학습 추측적 디코딩