MarkTechPost • 60일 전

엔비디아, GOLD 모델 대폭 능가하는 새 지식 증류 기술 공개

IMP

7/10

핵심 요약

엔비디아가 서로 다른 토크나이저를 사용하는 언어 모델 간의 지식 증류(KD) 효율을 극대화하는 'X-Token' 기술을 소개했습니다. 이 기술은 기존 방식인 GOLD의 구조적 한계를 극복하여 Llama-3.2-1B 모델 평가에서 평균 3.82포인트 높은 성능을 기록했습니다. 특히 수학 추론 벤치마크인 GSM8k에서 정확도를 2.56에서 15.54로 약 6배 이상 획기적으로 끌어올렸습니다.

번역된 본문

엔비디아의 X-Token은 기존 지식 증류 방식인 GOLD의 두 가지 구조적 한계를 해결하며, GSM8k 데이터셋 기준 정확도를 2.56에서 15.54로 대폭 향상시켰습니다. 엔비디아, X-Token 소개: Llama-3.2-1B에서 GOLD 대비 평균 +3.82포인트 우수한 성능을 보여주는 Projection-Guided Cross-Tokenizer(투영 유도 교차 토크나이저) 지식 증류(KD) 기법이라는 글이 MarkTechPost에 처음 게재되었습니다.

원문 보기

원문 보기 (영어)

NVIDIA's X-Token fixes two structural failures in GOLD and improves GSM8k accuracy from 2.56 to 15.54 The post NVIDIA Introduces X-Token: Projection-Guided Cross-Tokenizer KD That Outperforms GOLD by +3.82 Average Points on Llama-3.2-1B appeared first on MarkTechPost.

엔비디아 지식 증류 대형 언어 모델 Llama-3 X-Token