r/LocalLLaMA • 74일 전

Orthrus-Qwen3-8B: 동일 출력 분포 유지하며 토큰 처리 속도 최대 7.8배 향상

IMP

8/10

핵심 요약

기존 언어모델(Qwen3-8B)의 가중치를 고정한 채 학습 가능한 디퓨전 어텐션 모듈을 삽입해 모델의 원래 성능과 출력을 완벽하게 유지하면서도 토큰 처리 속도를 최대 7.8배까지 끌어올린 기술입니다. 기존의 디퓨전 기반 모델들이 성능 저하를 겪거나, 추측 디코딩(Speculative Decoding) 방식이 별도의 모델 초기화로 인해 지연 시간(TTFT) 페널티를 받는 것과 달리, 오버헤드 없이 압도적인 수용 길이(11.7)를 달성했다는 점이 핵심입니다.

번역된 본문

코드: https://github.com/chiennv2000/orthrus
논문: https://arxiv.org/abs/2605.12825
허깅페이스(HuggingFace): https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B ; https://huggingface.co/chiennv/Orthrus-Qwen3-4B ; https://huggingface.co/chiennv/Orthrus-Qwen3-8B
참고: 본 글의 작성자는 해당 논문의 공동 저자입니다.

아이디어: 동결된(Frozen) 자기회귀(AR) 트랜스포머의 각 레이어에 학습 가능한 디퓨전 어텐션 모듈(Diffusion Attention Module)을 주입합니다. 두 헤드(Head)는 하나의 KV 캐시를 공유합니다. 디퓨전 헤드는 K=32개의 토큰을 병렬로 프로젝트(투영)하고, 자기회귀 헤드는 두 번째 패스(Pass)에서 이를 검증하여 일치하는 가장 긴 접두사(Prefix)를 수용합니다. 이때 출력 분포는 기본 모델과 수학적으로 완벽히 동일함이 증명되었습니다.

결과:

초당 토큰 처리량(TPF) 최대 7.8배 증가, MATH-500 벤치마크에서 실제 실행 시간 기준 약 6배 속도 향상.
전체 파라미터 중 단 16%만 학습했으며, 10억(1B) 토큰 미만의 데이터로 H200 8대를 이용해 24시간 만에 학습을 완료했습니다.
기존 디퓨전 언어모델(Dream, Fast-dLLM-v2, SDAR, Mercury, Gemini Diffusion 등)과의 비교: 기존 방식들은 기본 가중치를 수정하여 정확도가 떨어집니다(예: Fast-dLLM-v2는 MATH-500에서 11포인트 하락). 반면 Orthrus는 백본(Backbone)을 고정하므로 정확도가 기본 모델인 Qwen3-8B와 완벽하게 일치합니다.
기존 추측 디코딩(Speculative Decoding, EAGLE-3, DFlash)과의 비교: 별도의 외부 초안 모델(Drafter)이나 개별 캐시가 필요하지 않습니다. 또한 초안 모델을 초기화하고 동기화할 필요가 없으므로 첫 번째 토큰 생성 시간(TTFT)에 대한 페널티가 0입니다. KV 캐시 오버헤드는 O(1)(약 4.5 MiB 수준)에 불과합니다. MATH-500에서의 토큰 수용 길이(Acceptance length)는 Orthrus가 11.7로, DFlash(7.9) 및 EAGLE-3(3.5)을 크게 상회했습니다.
단일 스텝 디노이징(Denoising)이 다중 스텝보다 우수한 성능을 보였습니다 (각각 TPF 6.35 vs 3.53). 수용율(Acceptance rate) 측면에서는 교차 엔트로피(CE)보다 KL 증류(Distillation)가 더 좋은 결과를냈습니다.

한계점: 동결된 기본 모델에 엄격하게 종속되므로 모델 자체의 편향(Bias), 환각(Hallucination), 지식 부족 등의 문제를 그대로 물려받습니다. 현재까지는 Qwen3 모델에 대한 평가만 진행되었으며, 탐욕적(Greedy) 디코딩과 기각 샘플링(Rejection Sampling) 방식만 지원합니다.

원문 보기

원문 보기 (영어)

* Code: [https://github.com/chiennv2000/orthrus](https://github.com/chiennv2000/orthrus) * Paper: [https://arxiv.org/abs/2605.12825](https://arxiv.org/abs/2605.12825) * HF: [https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B](https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B) ; [https://huggingface.co/chiennv/Orthrus-Qwen3-4B](https://huggingface.co/chiennv/Orthrus-Qwen3-4B) ; [https://huggingface.co/chiennv/Orthrus-Qwen3-8B](https://huggingface.co/chiennv/Orthrus-Qwen3-8B) * Disclosure: co-author. Idea: Inject a trainable diffusion attention module into each layer of a frozen AR Transformer. Both heads share one KV cache. Diffusion head projects K=32 tokens in parallel; AR head verifies in a second pass and accepts the longest matching prefix. Output distribution is provably identical to the base model. Results: * Up to 7.8× TPF, \~6× wall-clock on MATH-500. * 16% of params trained, <1B tokens, 24h on 8×H200. * vs. diffusion LMs (Dream, Fast-dLLM-v2, SDAR, Mercury, Gemini Diffusion): they modify base weights and lose accuracy (Fast-dLLM-v2: -11 pts on MATH-500). Orthrus freezes the backbone; accuracy matches Qwen3-8B exactly. * vs. Speculative Decoding (EAGLE-3, DFlash): No external drafter, no separate cache, and zero Time-To-First-Token (TTFT) penalty because we don't have to initialize and sync a separate drafter model. KV overhead is O(1) (\~4.5 MiB flat). Acceptance length on MATH-500: 11.7 vs. 7.9 (DFlash) vs. 3.5 (EAGLE-3). * Single-step denoising beats multi-step (6.35 vs. 3.53 TPF). KL distillation beats CE on acceptance rate. Limitations: strictly bounded by the frozen base model (inherits its biases, hallucinations, knowledge gaps); Qwen3-only evaluation; greedy + rejection sampling only.

추론 속도 최적화 디퓨전 모델 Qwen3 추측 디코딩 LLM 아키텍처