#vLLM

마이크로 에이전트: 모델 API 내부 협업으로 최첨단 모델을 능가하는 법

최첨단 AI 모델 자체의 발전만큼이나 모델 간의 요청을 지능적으로 분배하고 조율하는 '라우터(Router)' 계층이 중요해지고 있습니다. vLLM Semantic Router와 같은 기술은 단일 모델 API 호출을 내부적인 다중 에이전트 협업으로 변환하여, 비용을 절감하면서도 최종 답변의 품질을 대폭 향상시킵니다. 복잡한 워크플로우를 숨기고 사용자는 하나의 모델과 대화하는 것처럼 매끄럽게 사용할 수 있게 해준다는 점에서 실무적 가치가 큽니다.

AI 라우터 vLLM 마이크로 에이전트

MarkTechPost • 35일 전

IMP 8

DFlash, 엔비디아 블랙웰서 최대 15배 처리량 향상

UC 샌디에이고(UC San Diego)가 개발한 DFlash는 기존 자기회귀(Autoregressive) 방식을 대체하는 가벼운 블록 디퓨전 모델(Block Diffusion Model)을 활용하여 토큰 블록을 병렬로 빠르게 생성(초안 작성)합니다. 이를 통해 정보 손실 없이 처리 속도를 대폭 높이며, 엔비디아 블랙웰(NVIDIA Blackwell) 환경에서는 최대 15배의 처리량(Throughput) 향상을 기록했습니다. vLLM, SGLang 등 주요 추론 프레임워크를 지원하여 AI 모델 실 서비스 배포 시 비용과 지연 시간을 줄이는 데 매우 유용한 기술입니다.

추측 해독 엔비디아 블랙웰 vLLM

Hacker News • 40일 전

IMP 8

DGX Spark 하나에 두 개의 Qwen3 모델 구동하기

DGX Spark(GB10) 단일 하드웨어에 vLLM과 LiteLLM을 활용해 대형 모델(Qwen3-Next-80B)과 소형 모델(Qwen3-4B)을 동시에 띄우는 고군분투기를 다룹니다. 단순 OOM 문제부터 vLLM의 메모리 할당 방식, 그리고 Qwen3 모델의 도구 호출 에이전트 연동 시 발생하는 치명적인 파싱 및 추론 모드 문제를 해결하는 과정을 담고 있습니다.

vLLM 로컬 LLM Qwen3

Hacker News • 60일 전

IMP 8

C++와 CUDA로 구현하는 고성능 LLM 추론 엔진

인기 있는 LLM 추론 프레임워크인 vLLM의 경량화된 버전인 tiny-vLLm을 C++와 CUDA를 사용해 밑바닥부터 직접 구현해 보는 오픈소스 프로젝트 및 강의 자료입니다. 모델 가중치 로딩부터 PagedAttention, 연속 배치(Continuous Batching) 등 실제 운영 환경에서 필요한 핵심 기술들을 직관적으로 학습할 수 있습니다. 개발자와 강사 모두가 LLM의 작동 원리와 추론 서버 구축 과정을 깊이 있게 이해하는 데 매우 유용한 자료입니다.

오픈소스 LLM 추론 vLLM

MarkTechPost • 63일 전

IMP 7

EAGLE 3.1: LLM 추론 시 어텐션 드리프트 해결

EAGLE팀, vLLM, TorchSpec가 협력하여 실제 서비스 환경에서 발생하는 추측 디코딩(Speculative Decoding)의 불안정성을 해결하는 EAGLE 3.1을 공개했습니다. 이번 업데이트는 대규모 언어 모델(LLM) 추론 시 발생하는 '어텐션 드리프트(Attention Drift)' 문제를 수정하여 모델의 안정성과 성능을 크게 향상시킵니다. 실무자들에게 LLM의 빠르고 안정적인 상용 배포를 가능하게 하는 핵심적인 기술 발전으로 평가받습니다.

대규모 언어 모델 추론 최적화 추측 디코딩

Hacker News • 64일 전

IMP 8

EAGLE, vLLM, TorchSpec 3사 협업한 추론 속도 혁신

EAGLE, vLLM, TorchSpec 팀이 협력하여 대규모 언어 모델(LLM)의 추론 속도를 획기적으로 높이는 'EAGLE 3.1' 스페큘러티브 디코딩(Speculative Decoding) 알고리즘을 발표했습니다. 이번 업데이트는 긴 문맥이나 다양한 프롬프트 환경에서 발생하는 '어텐션 드리프트(Attention Drift)' 문제를 해결하여, 기존 대비 최대 2배 긴 컨텍스트 수용 길이를 달성하며 모델 배포 안정성을 크게 높였습니다. 또한 실제 서비스 모델인 Kimi K2.6용 드래프트 모델을 오픈소스로 공개하고 vLLM 메인 브랜치에 통합하여 산업계의 실사용성을 강화했다는 점에서 중요합니다.

추론 속도 최적화 스페큘러티브 디코딩 오픈소스

r/LocalLLaMA • 75일 전

IMP 8

TurboQuant 정밀 성능 분석과 검증

최근 주목받는 KV-cache 양자화 기법인 TurboQuant의 실제 성능을 검증한 종합 연구 결과입니다. 30B~200B 이상의 다양한 모델과 장문 컨텍스트, 추론 벤치마크를 테스트한 결과, 기존 FP8 방식이 정확도 손실이 거의 없고 처리량과 지연 시간 면에서도 우수한 것으로 나타났습니다. 반면 TurboQuant는 약간의 메모리 절약 효과 외에는 처리 속도 저하를 유발하여 프로덕션 환경에는 FP8이 더 적합한 기본값으로 권장됩니다.

KV-cache 양자화 vLLM FP8

r/LocalLLaMA • 81일 전

IMP 6

레몬네이드, 실험적 vLLM ROCm 백엔드 추가

오픈소스 LLM 서버인 레몬네이드(Lemonade)에 AMD GPU 환경을 위한 vLLM ROCm 백엔드가 실험적으로 추가되었습니다. 이번 업데이트로 인해 모델을 GGUF 포맷으로 변환할 필요 없이 .safetensors 형식의 LLM을 직접 구동할 수 있게 되어, AMD 그래픽카드 사용자들의 모델 활용성이 크게 향상되었습니다. 개발진은 핵심 기능은 구현되었으나 일부 불안정한 부분이 존재하며, 향후 개발 방향을 잡기 위해 커뮤니티의 피드백을 적극적으로 요청하고 있습니다.

vLLM ROCm(AMD) Lemonade

r/LocalLLaMA • 82일 전

IMP 8

z-lab, 최대 3.7배 빠른 추론 모델 DFlash 공개

z-lab이 구글의 Gemma 모델과 결합하여 최대 3.7배의 추론 속도 향상을 제공하는 스펙큘레이티브 디코딩(Speculative Decoding) 초안 모델 'gemma-4-26B-A4B-it-DFlash'를 공개했습니다. 이 모델은 가벼운 블록 디퓨전(Block Diffusion) 모델을 활용해 여러 토큰을 병렬로 동시 생성하여 기존 자기회귀(Autoregressive) 방식 대비 처리량(Throughput)을 획기적으로 높였습니다. vLLM 및 SGLang 환경에서 즉시 사용할 수 있으며, 엔지니어링 및 컴퓨팅 리소스 지원을 통해 개발 및 훈련되었습니다.

추론 속도 최적화 스펙큘레이티브 디코딩 오픈소스 AI 모델

r/LocalLLaMA • 88일 전

IMP 7

윈도우 네이티브 vLLM으로 RTX 3090서 Qwen3.6-27B 초당 72토큰 달성

Windows 환경에서 WSL이나 Docker 없이 네이티브로 구동되는 오픈소스 vLLM 패치 및 포터블 런처가 공개되었습니다. RTX 3090 단일 GPU에서 Qwen3.6-27B(INT4 양자화) 모델을 최대 초당 72토큰(tok/s) 속도로 실행할 수 있으며, 복잡한 파이썬 환경 설정 없이 간편하게 설치할 수 있다는 것이 핵심입니다. 3090/4090/5090 등 엔비디아 최신 아키텍처 사용자가 로컬 환경에서 대규모 언어 모델을 쉽고 빠르게 테스트해 볼 수 있는 실용적인 도구입니다.

vLLM 로컬 LLM Windows 네이티브

Hacker News • 89일 전

IMP 8

LLM 초저비트 양자화 툴킷 AutoRound

대규모 언어 모델(LLM) 및 비전 언어 모델(VLM)을 위한 고급 양자화 툴킷인 AutoRound가 소개되었습니다. 이 도구는 부호 기반 경사 하강법(Sign-gradient descent)을 활용하여 2~4비트의 초저비트 환경에서도 높은 정확도를 유지하며 빠르고 저렴하게 모델을 최적화할 수 있습니다. 또한 주요 인퍼런스 프레임워크인 vLLM, SGLang, Transformers 등과 원활하게 통합되어 활용성이 매우 뛰어납니다.

양자화 (Quantization) 오픈소스 (Open Source) LLM 최적화

r/LocalLLaMA • 97일 전

IMP 9

단일 RTX 3090으로 85 TPS·12만5천 컨텍스트 구현

알리바바의 Qwen3.6-27B 모델이 출시된 지 하루 만에, 단일 소비자용 그래픽 카드(RTX 3090 24GB)에서 데이터센터급 추론 속도(85 TPS)와 12만 5천 토큰의 컨텍스트, 그리고 비전(Vision) 기능을 구현한 오픈소스 스택이 등장했습니다. 이는 기존 API 의존 없이도 GPT급 속도와 개인정보 보호, 무료 추론 비용을 모두 누릴 수 있게 되었음을 의미합니다. 저자는 vLLM의 버그 패치 4개와 최적화를 통해 이론적으로 불가능해 보이던 하드웨어 한계를 극복한 구체적 과정을 공유합니다.

로컬 추론 오픈소스 LLM vLLM

r/LocalLLaMA • 105일 전

IMP 6

DGX Spark 도착, vLLM 활용 온프레미스 구축 팁 문의

엔비디아의 'DGX Spark'를 활용해 vLLM, 파이토치(PyTorch), 허깅페이스(Hugging Face) 모델을 온프레미스 환경에서 구동하려는 사용자의 질문입니다. 교육 및 데이터 분석 목적의 애플리케이션을 위해 모든 데이터를 로컬에서 프라이빗하게 처리하고자 합니다. 기존 클라우드 환경과 달리 통합 메모리 시스템 기반의 로컬 하드웨어에서 효율적으로 구동할 모델 추천과 vLLM 튜닝 팁을 공유받고 있습니다.

온프레미스 vLLM DGX Spark

Hacker News • 110일 전

IMP 8

도구 호출과 오픈소스 모델의 M×N 문제

클로즈드 소스 AI 모델에서는 매끄러웠던 도구 호출(Tool calling) 기능이 오픈소스 모델에서는 파편화된 문제를 다룹니다. 각 모델(GPT, DeepSeek, GLM 등)마다 도구 호출을 인코딩하는 형식이 다르기 때문입니다. 다양한 애플리케이션(M)과 모델(N)이 증가함에 따라 포맷 파싱과 문법 적용을 위한 M×N의 개발 부담이 기하급수적으로 커지는 것이 핵심 문제입니다.

오픈소스 모델 도구 호출(Tool Calling) 파싱(Parser)