#추론 최적화

AI 칩 스타트업 에치드, 130억 달러 가치 달성

AI 반도체 스타트업 에치드(Etched)가 세쿼이아와 SK하이닉스 등 대형 투자자들로부터 시리즈 C 3억 달러를 유치하며 약 10조 원(103억 달러)의 기업가치를 달성했습니다. 이 회사는 트랜스포머 기반 AI 모델 처리에 최적화된 자체 칩과 시스템을 성공적으로 개발 및 테스트 중이며, 이미 10억 달러 규모의 주문을 확보해 NVIDIA 독점 시장에 유의미한 대안으로 떠올랐다는 점에서 중요합니다.

AI 반도체 투자 유치 에치드

Hacker News • 17일 전

IMP 7

맥 스튜디오에서 대규모 AI 모델 구동을 위한 3가지 버그 수정

M3 맥 스튜디오 얼트라 환경에서 5만 토큰 이상의 긴 대화 컨텍스트를 처리할 때 첫 토큰 생성까지 수 분이 걸리던 치명적인 지연 문제를 해결한 사례입니다. 저자는 DS4 Flash 모델에서 지연 시간이 더 짧은 Qwen 3.5 122B로 교체하고, 하이브리드 어텐션 구조로 인한 캐시 메모리 누수 등 서빙 스택의 버그 3가지를 직접 수정하여 로컬 환경에서도 실사용이 가능한 에이전트 코딩 환경을 구축했습니다. 로컬 LLM 최적화 및 Mac 하드웨어 활용에 관심 있는 개발자들에게 매우 유용한 기술적 인사이트를 제공합니다.

로컬 LLM 맥 스튜디오 추론 최적화

MarkTechPost • 35일 전

IMP 8

DFlash, 엔비디아 블랙웰서 최대 15배 처리량 향상

UC 샌디에이고(UC San Diego)가 개발한 DFlash는 기존 자기회귀(Autoregressive) 방식을 대체하는 가벼운 블록 디퓨전 모델(Block Diffusion Model)을 활용하여 토큰 블록을 병렬로 빠르게 생성(초안 작성)합니다. 이를 통해 정보 손실 없이 처리 속도를 대폭 높이며, 엔비디아 블랙웰(NVIDIA Blackwell) 환경에서는 최대 15배의 처리량(Throughput) 향상을 기록했습니다. vLLM, SGLang 등 주요 추론 프레임워크를 지원하여 AI 모델 실 서비스 배포 시 비용과 지연 시간을 줄이는 데 매우 유용한 기술입니다.

추측 해독 엔비디아 블랙웰 vLLM

Hacker News • 54일 전

IMP 8

다중 에이전트 토론을 내재화하는 LLM 사후 학습 기법

여러 AI가 토론하듯 답을 찾는 '다중 에이전트 토론' 방식의 비효율성을 해결하기 위해, 이 과정을 단일 LLM 내부로 압축하는 새로운 파인튜닝 프레임워크가 제안되었습니다. 내재화된 모델은 최대 93% 적은 토큰을 사용하면서도 기존 토론 방식과 동등하거나 더 뛰어난 추론 성능을 보였습니다. 연구진은 모델 내부에 악의적 에이전트를 심은 뒤 이를 제어하는 실험을 통해, 내재화 방식이 유해 행위를 더 쉽게 통제할 수 있음을 입증했습니다.

LLM 멀티에이전트 모델 파인튜닝

MarkTechPost • 63일 전

IMP 7

EAGLE 3.1: LLM 추론 시 어텐션 드리프트 해결

EAGLE팀, vLLM, TorchSpec가 협력하여 실제 서비스 환경에서 발생하는 추측 디코딩(Speculative Decoding)의 불안정성을 해결하는 EAGLE 3.1을 공개했습니다. 이번 업데이트는 대규모 언어 모델(LLM) 추론 시 발생하는 '어텐션 드리프트(Attention Drift)' 문제를 수정하여 모델의 안정성과 성능을 크게 향상시킵니다. 실무자들에게 LLM의 빠르고 안정적인 상용 배포를 가능하게 하는 핵심적인 기술 발전으로 평가받습니다.

대규모 언어 모델 추론 최적화 추측 디코딩

r/LocalLLaMA • 74일 전

IMP 6

좋은 소식: llama.cpp에 MTP 승인

오픈소스 AI 추론 라이브러리인 llama.cpp에 Multi-Token Prediction(MTP) 기능이 드디어 승인되었습니다. 이 업데이트가 적용되면 AI 모델이 한 번에 여러 토큰을 예측하게 되어 텍스트 생성 속도와 추론 효율성이 대폭 향상될 것으로 기대됩니다. 실무자들은 곧 있을 업데이트 적용을 위해 환경 준비를 서두르는 추세입니다.

오픈소스 llama.cpp 추론 최적화

r/LocalLLaMA • 79일 전

IMP 8

ExLlamaV3 대규모 업데이트: DFlash 지원 및 속도 대폭 향상!

로컬 AI 추론 라이브러리인 ExLlamaV3가 대대적인 업데이트를 진행했습니다. 새로운 'DFlash' 기능을 지원하여 에이전트 및 코딩 작업에서 기존 대비 최대 3배 빠른 텍스트 생성 속도를 달성했습니다. 또한 Gemma 4 모델 지원을 추가하고, 주요 오픈소스 모델들에 대한 최적화를 통해 다양한 GPU 환경에서의 실행 효율성을 크게 높였습니다.

오픈소스 로컬 LLM 추론 최적화

r/LocalLLaMA • 82일 전

IMP 8

LLaMA.cpp에 다중 토큰 예측 도입, Gemma 4 속도 40% 향상

오픈소스 로컬 AI 프로젝트인 LLaMA.cpp에 다중 토큰 예측(Multi-Token Prediction) 기능이 구현되어 추론 속도가 대폭 향상되었습니다. MacBook Pro M5Max 환경에서 테스트한 결과, Gemma 26B 모델의 토큰 생성 속도가 기존 97 tokens/s에서 138 tokens/s로 약 40% 증가했습니다. 이는 로컬 환경에서 구동되는 소규모 모델의 실사용 성능을 크게 끌어올리는 중요한 최적화 성과입니다.

로컬 AI 추론 최적화 llama.cpp

MarkTechPost • 104일 전

IMP 7

UCSD·Together AI, 크기 2배 트랜스포머 맞먹는 루프 언어모델 'Parcae' 공개

UCSD와 Together AI 연구진은 기존 언어 모델 구조와 달리 동일한 파라미터 내에서 모델의 깊이를 재사용해 성능을 극대화하는 루프(Looped) 언어 모델 안정적 아키텍처인 'Parcae'를 발표했습니다. 이 모델은 파라미터와 학습 토큰을 무작정 늘리는 대신 추론 시 연산량을 늘리는 방식으로, 두 배 크기의 일반 트랜스포머와 맞먹는 품질을 달성합니다. 이는 엣지(edge) 환경 등 자원이 제한된 상황에서도 효율적으로 고성능 AI 모델을 배포할 수 있는 새로운 방향을 제시한다는 점에서 중요합니다.

대규모 언어 모델 모델 아키텍처 Parcae

MarkTechPost • 108일 전

IMP 9

MIT·NVIDIA, 트라이어텐션 제안…KV 캐시 10배 절감

MIT, NVIDIA, 저장대학 연구진이 대규모 언어 모델(LLM)의 메모리 병목 현상을 해결하기 위해 'TriAttention(트라이어텐션)'이라는 새로운 KV 캐시 압축 기법을 제안했습니다. 이 방법은 기존 방식들의 한계를 극복하여, 수학 추론 벤치마크에서 Full Attention과 동등한 정확도를 유지하면서도 처리량(Throughput)은 2.5배 높이거나 KV 메모리는 최대 10.7배 줄일 수 있습니다.

KV 캐시 압축 대규모 언어 모델 GPU 메모리 최적화

r/LocalLLaMA • 108일 전

IMP 8

애플 실리콘 DFlash 추론: 초당 85토큰, 최대 3.3배 속도 향상

애플 실리콘(M5 Max) 환경의 MLX 프레임워크에서 작동하는 DFlash 스페큘러 디코딩(Speculative Decoding)의 네이티브 구현체가 공개되었습니다. 작은 초안(Draft) 모델이 16개의 토큰을 병렬로 생성하고 타겟 모델이 이를 한 번의 순전파(Forward pass)로 검증하는 방식을 사용하여, 양자화되지 않은 9B 모델 기준 최대 3.3배, 양자화된 27B 모델 기준 최대 2.5배의 추론 속도 향상을 달성했습니다. 통합 메모리(Unified memory) 환경에서 커스텀 커널보다 기본 GEMM 연산이 더 효율적이며, 양자화된 모델에서는 오히려 bf16 초안 모델이 병목 현상을 일으키는 등 애플 실리콘 특유의 하드웨어 최적화 인사이트를 제공합니다.

온디바이스 AI 애플 실리콘 스페큘러 디코딩