#추측 디코딩

딥시크 'DSpark', AI 응답 속도 최대 85% 향상

중국의 AI 기업 딥시크(Deepseek)가 AI 모델의 응답 속도를 최대 85% 향상하는 새로운 프레임워크 'DSpark'를 공개했습니다. 이 기술은 작은 모델이 정답 후보를 제안하고 대형 모델이 이를 검증하는 추측 디코딩(Speculative decoding) 방식을 사용해 제한된 칩으로도 더 빠르고 효율적인 AI 구동을 가능하게 합니다. 이는 미국의 반도체 수출 통제를 받는 중국이나 인프라가 부족한 유럽 연합(EU)이 적은 칩으로도 더 높은 성능을 낼 수 있다는 점에서 전략적으로 매우 중요한 성과입니다.

딥시크 추측 디코딩 AI 인프라

Hacker News • 32일 전

IMP 8

DSpark: 대규모 언어 모델 추론을 가속화하는 추측 디코딩 논문

DeepSeek AI가 대규모 언어 모델(LLM)의 텍스트 생성 속도를 획기적으로 높이는 '추측 디코딩(Speculative decoding)' 기술인 DSpark에 대한 연구 논문을 공개했습니다. 이 기술은 모델의 출력 품질을 그대로 유지하면서도 연산 효율을 극대화하여, AI 서비스의 응답 지연 문제를 해결하는 데 매우 중요합니다.

DeepSeek 추측 디코딩 LLM 가속화

MarkTechPost • 63일 전

IMP 7

EAGLE 3.1: LLM 추론 시 어텐션 드리프트 해결

EAGLE팀, vLLM, TorchSpec가 협력하여 실제 서비스 환경에서 발생하는 추측 디코딩(Speculative Decoding)의 불안정성을 해결하는 EAGLE 3.1을 공개했습니다. 이번 업데이트는 대규모 언어 모델(LLM) 추론 시 발생하는 '어텐션 드리프트(Attention Drift)' 문제를 수정하여 모델의 안정성과 성능을 크게 향상시킵니다. 실무자들에게 LLM의 빠르고 안정적인 상용 배포를 가능하게 하는 핵심적인 기술 발전으로 평가받습니다.

대규모 언어 모델 추론 최적화 추측 디코딩

r/LocalLLaMA • 74일 전

IMP 8

Orthrus-Qwen3-8B: 동일 출력 분포 유지하며 토큰 처리 속도 최대 7.8배 향상

기존 언어모델(Qwen3-8B)의 가중치를 고정한 채 학습 가능한 디퓨전 어텐션 모듈을 삽입해 모델의 원래 성능과 출력을 완벽하게 유지하면서도 토큰 처리 속도를 최대 7.8배까지 끌어올린 기술입니다. 기존의 디퓨전 기반 모델들이 성능 저하를 겪거나, 추측 디코딩(Speculative Decoding) 방식이 별도의 모델 초기화로 인해 지연 시간(TTFT) 페널티를 받는 것과 달리, 오버헤드 없이 압도적인 수용 길이(11.7)를 달성했다는 점이 핵심입니다.

추론 속도 최적화 디퓨전 모델 Qwen3