메뉴
BL
r/LocalLLaMA 56일 전

애플, 코드 생성 성능 높이는 '초간단 자기 증류' 기법

IMP
8/10
핵심 요약

애플 연구진이 검증자나 강화학습 없이 대규모 언어 모델(LLM)의 코드 생성 능력을 향상시키는 초간단 자기 증류(SSD) 기법을 제안했습니다. 이 방법은 모델 자체의 출력을 샘플링하여 표준 지도 학습 미세조정(SFT)을 수행하는 것만으로 성능을 크게 높입니다. 실제로 300억 파라미터 모델의 코딩 벤치마크 점수를 약 13% 포인트나 끌어올리며, 향후 AI 모델의 포스트 트레이닝 방향성을 제시한다는 점에서 매우 중요한 연구입니다.

번역된 본문

전산학 > 전산 및 언어 arXiv:2604.01193 (cs) [2026년 4월 1일 제출]

제목: 민망할 정도로 단순한 자기 증류가 코드 생성을 개선한다 저자: Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang

초록: 대규모 언어 모델(LLM)이 검증자(Verifier), 교사 모델(Teacher model) 또는 강화학습 없이 오직 자체 원시 출력(raw outputs)만 사용하여 코드 생성 능력을 향상시킬 수 있을까요? 우리는 '단순 자기 증류(Simple Self-Distillation, SSD)'를 통해 이 질문에 긍정적으로 답합니다. 이 방법은 특정 온도(temperature) 및 잘림(truncation) 설정을 사용하여 모델에서 솔루션을 샘플링한 다음, 해당 샘플로 표준 지도 학습 미세조정(SFT)을 수행하는 것입니다. SSD는 LiveCodeBench v6 벤치마크에서 Qwen3-30B-Instruct 모델의 pass@1 정확도를 42.4%에서 55.3%로 향상시켰으며, 이러한 성능 향상은 특히 어려운 문제에서 두드러졌습니다. 또한 이 기법은 40억, 80억, 300억 파라미터 규모의 Qwen 및 Llama 모델 전반에 걸쳐 지시형(Instruct) 및 사고형(Thinking) 변형 모두에서 일반화되어 나타났습니다.

이렇게 단순한 방법이 작동하는 이유를 규명하기 위해, 우리는 이러한 성능 향상이 LLM 디코딩 과정에서 발생하는 '정밀도-탐색(Precision-Exploration) 갈등'에서 비롯됨을 추적했습니다. 그리고 SSD가 문맥에 따라 토큰 분포를 재형성하여, 정밀도가 중요한 부분에서는 방해가 되는 꼬리 분포를 억제하고 탐색이 중요한 부분에서는 유용한 다양성을 보존한다는 것을 보여주었습니다. 종합해 보면, SSD는 LLM 코드 생성을 개선하기 위한 새롭고 상호 보완적인 포스트 트레이닝(Post-training) 방향을 제시합니다.

주제: 전산 및 언어 (cs.CL) 인용: arXiv:2604.01193 [cs.CL] 제출 기록: Ruixiang Zhang [v1] 2026년 4월 2일 (21,738 KB)

원문 보기
원문 보기 (영어)
--> Computer Science > Computation and Language arXiv:2604.01193 (cs) [Submitted on 1 Apr 2026] Title: Embarrassingly Simple Self-Distillation Improves Code Generation Authors: Ruixiang Zhang , Richard He Bai , Huangjie Zheng , Navdeep Jaitly , Ronan Collobert , Yizhe Zhang View a PDF of the paper titled Embarrassingly Simple Self-Distillation Improves Code Generation, by Ruixiang Zhang and 5 other authors View PDF HTML (experimental) Abstract: Can a large language model (LLM) improve at code generation using only its own raw outputs, without a verifier, a teacher model, or reinforcement learning? We answer in the affirmative with simple self-distillation (SSD): sample solutions from the model with certain temperature and truncation configurations, then fine-tune on those samples with standard supervised fine-tuning. SSD improves Qwen3-30B-Instruct from 42.4% to 55.3% pass@1 on LiveCodeBench v6, with gains concentrating on harder problems, and it generalizes across Qwen and Llama models at 4B, 8B, and 30B scale, including both instruct and thinking variants. To understand why such a simple method can work, we trace these gains to a precision-exploration conflict in LLM decoding and show that SSD reshapes token distributions in a context-dependent way, suppressing distractor tails where precision matters while preserving useful diversity where exploration matters. Taken together, SSD offers a complementary post-training direction for improving LLM code generation. Subjects: Computation and Language (cs.CL) Cite as: arXiv:2604.01193 [cs.CL] (or arXiv:2604.01193v1 [cs.CL] for this version) https://doi.org/10.48550/arXiv.2604.01193 Focus to learn more arXiv-issued DOI via DataCite (pending registration) Submission history From: Ruixiang Zhang [ view email ] [v1] Wed, 1 Apr 2026 17:39:50 UTC (21,738 KB) Full-text links: Access Paper: View a PDF of the paper titled Embarrassingly Simple Self-Distillation Improves Code Generation, by Ruixiang Zhang and 5 other authors View PDF HTML (experimental) TeX Source view license Current browse context: cs.CL < prev | next > new | recent | 2026-04 Change to browse by: cs References & Citations NASA ADS Google Scholar Semantic Scholar export BibTeX citation Loading... BibTeX formatted citation &times; loading... Data provided by: Bookmark Bibliographic Tools Bibliographic and Citation Tools Bibliographic Explorer Toggle Bibliographic Explorer ( What is the Explorer? ) Connected Papers Toggle Connected Papers ( What is Connected Papers? ) Litmaps Toggle Litmaps ( What is Litmaps? ) scite.ai Toggle scite Smart Citations ( What are Smart Citations? ) Code, Data, Media Code, Data and Media Associated with this Article alphaXiv Toggle alphaXiv ( What is alphaXiv? ) Links to Code Toggle CatalyzeX Code Finder for Papers ( What is CatalyzeX? ) DagsHub Toggle DagsHub ( What is DagsHub? ) GotitPub Toggle Gotit.pub ( What is GotitPub? ) Huggingface Toggle Hugging Face ( What is Huggingface? ) Links to Code Toggle Papers with Code ( What is Papers with Code? ) ScienceCast Toggle ScienceCast ( What is ScienceCast? ) Demos Demos Replicate Toggle Replicate ( What is Replicate? ) Spaces Toggle Hugging Face Spaces ( What is Spaces? ) Spaces Toggle TXYZ.AI ( What is TXYZ.AI? ) Related Papers Recommenders and Search Tools Link to Influence Flower Influence Flower ( What are Influence Flowers? ) Core recommender toggle CORE Recommender ( What is CORE? ) Author Venue Institution Topic About arXivLabs arXivLabs: experimental projects with community collaborators arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website. Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them. Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs . Which authors of this paper are endorsers? | Disable MathJax ( What is MathJax? )