#디퓨전 언어 모델

바이두(인민대·바이트댄스)의 디퓨전 언어모델 iLLaDA, 큐웬2.5에 맞먹는 성능 입증

중국 인민대와 바이트댄스가 기존 트랜스포머 방식과 작동 원리가 전혀 다른 디퓨전 기반 언어모델 'iLLaDA(8B)'를 공개했습니다. 이 모델은 기본(Base) 성능에서 자귀접속(autoregressive) 방식의 강자인 큐웬2.5(Qwen2.5) 7B와 동등한 수준을 기록하며 새로운 가능성을 보여줬습니다. 다만 구글의 DiffusionGemma가 속도에 집중한 것과 달리 iLLaDA는 품질에 집중했으며, 추가 미세조정(파인튜닝) 및 강화학습 정렬이 부족해 인스트럭트(Instruct) 모델 성능에는 아직 격차가 있습니다.

디퓨전 언어 모델 바이트댄스 iLLaDA

r/LocalLLaMA • 109일 전

IMP 8

싱가포르 국립대, 병렬 디코딩 가속화하는 'DMax' 발표

싱가포르 국립대(NUS) 연구팀이 기존 디퓨전 언어 모델(dLLM)의 한계를 극복하고 병렬 처리 속도를 획기적으로 높인 'DMax' 모델을 공개했습니다. 이 모델은 디코딩 과정을 점진적 자기 정제(self-refinement) 과정으로 재정의하여, 초기 예측의 오류가 누적되는 현상을 방지하고 스스로 오류를 수정할 수 있도록 설계되었습니다. 그 결과 수학 및 코딩 벤치마크에서 기존 모델 대비 2~3배 높은 처리 속도를 기록하면서도 원본 모델의 정확도를 유지하는 성과를 입증했습니다.

디퓨전 언어 모델 병렬 디코딩 추론 가속화