#Qwen3

DGX Spark 하나에 두 개의 Qwen3 모델 구동하기

DGX Spark(GB10) 단일 하드웨어에 vLLM과 LiteLLM을 활용해 대형 모델(Qwen3-Next-80B)과 소형 모델(Qwen3-4B)을 동시에 띄우는 고군분투기를 다룹니다. 단순 OOM 문제부터 vLLM의 메모리 할당 방식, 그리고 Qwen3 모델의 도구 호출 에이전트 연동 시 발생하는 치명적인 파싱 및 추론 모드 문제를 해결하는 과정을 담고 있습니다.

vLLM 로컬 LLM Qwen3

MarkTechPost • 63일 전

IMP 7

고정밀 검색-재순위 파이프라인 구축하기

이 튜토리얼은 40억(4B) 파라미터 규모의 Qwen3 기반 크로스 인코더 재순위 모델(reranker)인 'zeroentropy/zerank-2-reranker'를 활용해 검색 품질을 극대화하는 방법을 다룹니다. 빠른 바이 인코더(bi-encoder)로 먼저 후보 문서를 검색하고, 제로랭크-2 모델이 이를 정밀하게 재정렬하는 2단계 검색 파이프라인을 구축하는 실무 과정을 설명합니다. 정보 검색 및 RAG(검색 증강 생성) 시스템의 정확도를 높이고자 하는 AI 실무자들에게 필수적인 최적화 가이드를 제공합니다.

재순위 모델 (Reranker) 검색 증강 생성 (RAG) 정보 검색 (IR)

r/LocalLLaMA • 74일 전

IMP 8

Orthrus-Qwen3-8B: 동일 출력 분포 유지하며 토큰 처리 속도 최대 7.8배 향상

기존 언어모델(Qwen3-8B)의 가중치를 고정한 채 학습 가능한 디퓨전 어텐션 모듈을 삽입해 모델의 원래 성능과 출력을 완벽하게 유지하면서도 토큰 처리 속도를 최대 7.8배까지 끌어올린 기술입니다. 기존의 디퓨전 기반 모델들이 성능 저하를 겪거나, 추측 디코딩(Speculative Decoding) 방식이 별도의 모델 초기화로 인해 지연 시간(TTFT) 페널티를 받는 것과 달리, 오버헤드 없이 압도적인 수용 길이(11.7)를 달성했다는 점이 핵심입니다.

추론 속도 최적화 디퓨전 모델 Qwen3