메뉴

#추론 최적화

MP
MarkTechPost 4일 전
IMP 7

EAGLE 3.1: LLM 추론 시 어텐션 드리프트 해결

EAGLE팀, vLLM, TorchSpec가 협력하여 실제 서비스 환경에서 발생하는 추측 디코딩(Speculative Decoding)의 불안정성을 해결하는 EAGLE 3.1을 공개했습니다. 이번 업데이트는 대규모 언어 모델(LLM) 추론 시 발생하는 '어텐션 드리프트(Attention Drift)' 문제를 수정하여 모델의 안정성과 성능을 크게 향상시킵니다. 실무자들에게 LLM의 빠르고 안정적인 상용 배포를 가능하게 하는 핵심적인 기술 발전으로 평가받습니다.

대규모 언어 모델 추론 최적화 추측 디코딩
LL
r/LocalLLaMA 15일 전
IMP 6

좋은 소식: llama.cpp에 MTP 승인

오픈소스 AI 추론 라이브러리인 llama.cpp에 Multi-Token Prediction(MTP) 기능이 드디어 승인되었습니다. 이 업데이트가 적용되면 AI 모델이 한 번에 여러 토큰을 예측하게 되어 텍스트 생성 속도와 추론 효율성이 대폭 향상될 것으로 기대됩니다. 실무자들은 곧 있을 업데이트 적용을 위해 환경 준비를 서두르는 추세입니다.

오픈소스 llama.cpp 추론 최적화
LL
r/LocalLLaMA 20일 전
IMP 8

ExLlamaV3 대규모 업데이트: DFlash 지원 및 속도 대폭 향상!

로컬 AI 추론 라이브러리인 ExLlamaV3가 대대적인 업데이트를 진행했습니다. 새로운 'DFlash' 기능을 지원하여 에이전트 및 코딩 작업에서 기존 대비 최대 3배 빠른 텍스트 생성 속도를 달성했습니다. 또한 Gemma 4 모델 지원을 추가하고, 주요 오픈소스 모델들에 대한 최적화를 통해 다양한 GPU 환경에서의 실행 효율성을 크게 높였습니다.

오픈소스 로컬 LLM 추론 최적화
LL
r/LocalLLaMA 23일 전
IMP 8

LLaMA.cpp에 다중 토큰 예측 도입, Gemma 4 속도 40% 향상

오픈소스 로컬 AI 프로젝트인 LLaMA.cpp에 다중 토큰 예측(Multi-Token Prediction) 기능이 구현되어 추론 속도가 대폭 향상되었습니다. MacBook Pro M5Max 환경에서 테스트한 결과, Gemma 26B 모델의 토큰 생성 속도가 기존 97 tokens/s에서 138 tokens/s로 약 40% 증가했습니다. 이는 로컬 환경에서 구동되는 소규모 모델의 실사용 성능을 크게 끌어올리는 중요한 최적화 성과입니다.

로컬 AI 추론 최적화 llama.cpp
MP
MarkTechPost 45일 전
IMP 7

UCSD·Together AI, 크기 2배 트랜스포머 맞먹는 루프 언어모델 'Parcae' 공개

UCSD와 Together AI 연구진은 기존 언어 모델 구조와 달리 동일한 파라미터 내에서 모델의 깊이를 재사용해 성능을 극대화하는 루프(Looped) 언어 모델 안정적 아키텍처인 'Parcae'를 발표했습니다. 이 모델은 파라미터와 학습 토큰을 무작정 늘리는 대신 추론 시 연산량을 늘리는 방식으로, 두 배 크기의 일반 트랜스포머와 맞먹는 품질을 달성합니다. 이는 엣지(edge) 환경 등 자원이 제한된 상황에서도 효율적으로 고성능 AI 모델을 배포할 수 있는 새로운 방향을 제시한다는 점에서 중요합니다.

대규모 언어 모델 모델 아키텍처 Parcae
MP
MarkTechPost 49일 전
IMP 9

MIT·NVIDIA, 트라이어텐션 제안…KV 캐시 10배 절감

MIT, NVIDIA, 저장대학 연구진이 대규모 언어 모델(LLM)의 메모리 병목 현상을 해결하기 위해 'TriAttention(트라이어텐션)'이라는 새로운 KV 캐시 압축 기법을 제안했습니다. 이 방법은 기존 방식들의 한계를 극복하여, 수학 추론 벤치마크에서 Full Attention과 동등한 정확도를 유지하면서도 처리량(Throughput)은 2.5배 높이거나 KV 메모리는 최대 10.7배 줄일 수 있습니다.

KV 캐시 압축 대규모 언어 모델 GPU 메모리 최적화
LL
r/LocalLLaMA 49일 전
IMP 8

애플 실리콘 DFlash 추론: 초당 85토큰, 최대 3.3배 속도 향상

애플 실리콘(M5 Max) 환경의 MLX 프레임워크에서 작동하는 DFlash 스페큘러 디코딩(Speculative Decoding)의 네이티브 구현체가 공개되었습니다. 작은 초안(Draft) 모델이 16개의 토큰을 병렬로 생성하고 타겟 모델이 이를 한 번의 순전파(Forward pass)로 검증하는 방식을 사용하여, 양자화되지 않은 9B 모델 기준 최대 3.3배, 양자화된 27B 모델 기준 최대 2.5배의 추론 속도 향상을 달성했습니다. 통합 메모리(Unified memory) 환경에서 커스텀 커널보다 기본 GEMM 연산이 더 효율적이며, 양자화된 모델에서는 오히려 bf16 초안 모델이 병목 현상을 일으키는 등 애플 실리콘 특유의 하드웨어 최적화 인사이트를 제공합니다.

온디바이스 AI 애플 실리콘 스페큘러 디코딩