애플, 코드 생성 성능 높이는 '초간단 자기 증류' 기법
애플 연구진이 검증자나 강화학습 없이 대규모 언어 모델(LLM)의 코드 생성 능력을 향상시키는 초간단 자기 증류(SSD) 기법을 제안했습니다. 이 방법은 모델 자체의 출력을 샘플링하여 표준 지도 학습 미세조정(SFT)을 수행하는 것만으로 성능을 크게 높입니다. 실제로 300억 파라미터 모델의 코딩 벤치마크 점수를 약 13% 포인트나 끌어올리며, 향후 AI 모델의 포스트 트레이닝 방향성을 제시한다는 점에서 매우 중요한 연구입니다.
전산학 > 전산 및 언어 arXiv:2604.01193 (cs) [2026년 4월 1일 제출]
제목: 민망할 정도로 단순한 자기 증류가 코드 생성을 개선한다 저자: Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang
초록: 대규모 언어 모델(LLM)이 검증자(Verifier), 교사 모델(Teacher model) 또는 강화학습 없이 오직 자체 원시 출력(raw outputs)만 사용하여 코드 생성 능력을 향상시킬 수 있을까요? 우리는 '단순 자기 증류(Simple Self-Distillation, SSD)'를 통해 이 질문에 긍정적으로 답합니다. 이 방법은 특정 온도(temperature) 및 잘림(truncation) 설정을 사용하여 모델에서 솔루션을 샘플링한 다음, 해당 샘플로 표준 지도 학습 미세조정(SFT)을 수행하는 것입니다. SSD는 LiveCodeBench v6 벤치마크에서 Qwen3-30B-Instruct 모델의 pass@1 정확도를 42.4%에서 55.3%로 향상시켰으며, 이러한 성능 향상은 특히 어려운 문제에서 두드러졌습니다. 또한 이 기법은 40억, 80억, 300억 파라미터 규모의 Qwen 및 Llama 모델 전반에 걸쳐 지시형(Instruct) 및 사고형(Thinking) 변형 모두에서 일반화되어 나타났습니다.
이렇게 단순한 방법이 작동하는 이유를 규명하기 위해, 우리는 이러한 성능 향상이 LLM 디코딩 과정에서 발생하는 '정밀도-탐색(Precision-Exploration) 갈등'에서 비롯됨을 추적했습니다. 그리고 SSD가 문맥에 따라 토큰 분포를 재형성하여, 정밀도가 중요한 부분에서는 방해가 되는 꼬리 분포를 억제하고 탐색이 중요한 부분에서는 유용한 다양성을 보존한다는 것을 보여주었습니다. 종합해 보면, SSD는 LLM 코드 생성을 개선하기 위한 새롭고 상호 보완적인 포스트 트레이닝(Post-training) 방향을 제시합니다.
주제: 전산 및 언어 (cs.CL) 인용: arXiv:2604.01193 [cs.CL] 제출 기록: Ruixiang Zhang [v1] 2026년 4월 2일 (21,738 KB)