내향적 디퓨전 언어 모델(I-DLM)
디퓨전 언어 모델(DLM)의 한계를 극복하고 자기회귀(AR) 모델과 동등한 성능을 달성한 내향적 디퓨전 언어 모델(I-DLM)을 소개합니다. 이 모델은 기존 DLM이 가진 '내향적 일관성' 부족 문제를 해결하여, 절반 크기의 파라미터로도 대형 모델들을 능가하는 추론 및 코딩 성능을 보여줍니다. 또한 동시 처리 시 높은 처리량을 제공하며 기존 AR 서빙 인프라와 완벽하게 호환된다는 점에서 실무적으로 매우 중요한 의미를 갖습니다.
이 페이지에서는 개요, 초록, 동기, 방법, 결과, 처리량 가속화, 탐색기, 수용 테이블, 문서화, 인용 등을 확인할 수 있습니다.
내향적 디퓨전 언어 모델 (Introspective Diffusion Language Models)
Yifan Yu *, Yuqing Jian *, Junxiong Wang , Zhongzhu Zhou , Donglin Zhuang , Xinyu Fang , Sri Yanamandra , Xiaoxia Wu , Qingyang Wu , Shuaiwen Leon Song , Tri Dao , Ben Athiwaratkun , James Zou †, Fan Lai †◊, Chenfeng Xu †◊ Together AI • UIUC • Princeton • Stanford • UT Austin
- 공동 제1저자 † 공동 지도 ◊ 교신저자
논문 (arXiv) 코드 모델 인용
- AIME-24: 69.6 (I-DLM-8B) vs. LLaDA-2.1-mini 43.3
- LCB-v6: 45.7 (I-DLM-8B) vs. LLaDA-2.1-mini 30.4
- C=64 조건에서 LLaDA-2.1-mini 대비 2.9-4.1배 높은 처리량(Throughput)
- 기본 AR 모델과 비트 수준에서 완벽하게 동일한 무손실(Lossless) 성능
초록 (Abstract) 디퓨전 언어 모델(DLM)은 매력적인 전망을 제시합니다. 병렬 토큰 생성은 자기회귀(AR) 디코딩의 순차적 병목 현상을 해결할 수 있기 때문입니다. 그러나 실제로는 DLM이 품질 면에서 AR 모델에 미치지 못했습니다. 본 연구자들은 이러한 격차가 '내향적 일관성(Introspective Consistency)'의 근본적인 결여에서 비롯된다고 주장합니다. 즉, AR 모델은 자신이 생성한 것에 동의하지만, DLM은 그렇지 않은 경우가 많습니다. 이에 내향적 스트라이드 디코딩(Introspective Strided Decoding, ISD)을 사용하여 새로운 토큰을 생성하는 동시에 이전에 생성된 토큰을 검증하는 내향적 디퓨전 언어 모델(I-DLM)을 소개합니다. 실증적으로 I-DLM-8B는 동일한 규모의 AR 모델과 동등한 품질을 달성한 최초의 DLM입니다. 파라미터 크기가 절반임에도 불구하고 LLaDA-2.1-mini(16B)보다 AIME-24에서 +26점, LiveCodeBench-v6에서 +15점 높은 성능을 보이며, 높은 동시성 환경에서 2.9~4.1배 높은 처리량을 제공합니다. Gated LoRA를 적용할 경우, ISD는 비트 수준의 무손실 가속화를 가능하게 합니다.
왜 내향적 일관성(Introspective Consistency)인가? 핵심 통찰: AR 훈련은 하나의 순전파(forward pass)에서 생성과 내성을 통합합니다. 기존 DLM은 이를 놓치며, 노이즈 제거는 학습하지만 내성은 학습하지 않습니다. 본 연구는 현재 DLM의 세 가지 근본적인 병목 현상을 파악했습니다: (1) 낮은 내향적 일관성. SDAR: 0.699 vs. I-DLM: 0.984. (2) 컴퓨팅 비효율성. TiDAR: 약 7.8배 오버헤드 vs. I-DLM: 약 2.5배. (3) 인프라 불일치. SDAR 기울기=84 vs. I-DLM: 549.
I-DLM 방법론
- 내향적 일관성 훈련 (Introspective-Consistency Training): 인과적 어텐션(Causal Attention), 로짓 시프트(Logit Shift), 올-마스크(All-masked) 목표 함수를 통해 사전 훈련된 AR 모델을 변환합니다.
- 내향적 스트라이드 디코딩 (Introspective Strided Decoding): 순전파당 N개의 토큰을 생성하는 동시에 p/q 수용 기준을 통해 이전 토큰을 검증합니다.
- AR 호환 서빙 (AR-Compatible Serving): 엄격한 인과적 어텐션을 통해 사용자 정의 인프라 없이 SGLang에 직접 통합할 수 있습니다.
디코딩 패러다임 비교. I-DLM은 AR 서빙 인프라 내에서 즉시 사용 가능한 대체제입니다.
결과 (Results) I-DLM은 동일 규모의 AR 모델 품질과 일치하면서도 15개 벤치마크에서 이전의 모든 DLM을 능가한 최초의 DLM입니다.
종단간 품질 (End-to-End Quality) 파란색 = 30B 미만 최고의 비-AR 모델. 굵은 글씨 = 100B 미만 최고의 비-AR 모델. (모델 비교: Qwen3 8B, Qwen3 32B, LLaDA-2.1-mini 16B, LLaDA-2.0-flash 100B, LLaDA-2.1-flash 100B, SDAR 8B, SDAR 30B, Mercury Coder, Gemini Diffusion, I-DLM 8B, I-DLM 32B)
- 지식 및 추론 (Knowledge & Reasoning): ARC-C (I-DLM 8B: 95.8, 32B: 96.8), MMLU (82.4, 86.8), MMLU-Pro (73.1, 79.7), GPQA-D (55.6, 62.1), GPQA (54.9, 58.7)
- 수학 (Math): GSM8K (95.0, 94.9), MATH-500 (96.8, 97.6), MathBench (89.1, 95.6), AIME-24 (69.6, 83.3), AIME-25 (60.8, 80.0)
- 코딩 (Code): HumanEval (93.3, 96.3), MBPP (92.2, 94.6), LCB-v6 (45.7, 57.1)
- 명령어 준수 (Instruction Following): IFEval (84.7, 84.7)
처리량 (Throughput) 다양한 배치 크기(1, 4, 16, 64)에서 DLM과 비교한 처리량-지연 시간 트레이드오프. I-DLM은 LLaDA-2.1-mini보다 2.9~4.1배 높은 처리량을 제공합니다.