메뉴
BL
r/LocalLLaMA 46일 전

DGX Spark 도착, vLLM 활용 온프레미스 구축 팁 문의

IMP
6/10
핵심 요약

엔비디아의 'DGX Spark'를 활용해 vLLM, 파이토치(PyTorch), 허깅페이스(Hugging Face) 모델을 온프레미스 환경에서 구동하려는 사용자의 질문입니다. 교육 및 데이터 분석 목적의 애플리케이션을 위해 모든 데이터를 로컬에서 프라이빗하게 처리하고자 합니다. 기존 클라우드 환경과 달리 통합 메모리 시스템 기반의 로컬 하드웨어에서 효율적으로 구동할 모델 추천과 vLLM 튜닝 팁을 공유받고 있습니다.

번역된 본문

오늘 DGX Spark를 설치하고 로컬 LLM 추론을 위해 설정을 시작했습니다.

현재 계획은 다음과 같습니다:

•	vLLM
•	PyTorch
•	Hugging Face 모델

이를 현재 개발 중인 애플리케이션(교육 및 데이터 분석 유스케이스, 모든 데이터를 로컬/프라이빗하게 유지하는 것을 목표로 함)의 로컬 API 백엔드로 활용할 예정입니다.

지금까지는 주로 클라우드 GPU를 사용해 왔기 때문에, 이렇게 완전한 온프레미스(On-prem) 환경에서 시스템을 구동하는 것은 이번이 처음입니다.

궁금한 점이 몇 가지 있습니다:

•	이 하드웨어에서 효율적으로 구동되고 있는 추천 모델은 무엇인가요?
•	이러한 통합 메모리(Unified memory) 시스템에서 vLLM을 최적화하기 위한 팁이 있나요?
•	실제 처리량(Throughput)은 기대치에 비해 어떤가요?

비슷한 환경을 구성하여 사용 중이신 분들의 인사이트와 조언을 미리 감사드립니다.

원문 보기
원문 보기 (영어)
Just got a DGX Spark set up today and starting to configure it for local LLM inference. Plan is to run: • vLLM • PyTorch • Hugging Face models as a local API backend for an application I’m building (education / analytics use case, trying to keep everything local/private). I’ve mostly been working with cloud GPUs up to now, so this is my first time running something like this fully on-prem. A few things I’m curious about: • Best models people are running efficiently on this hardware? • Any tuning tips for vLLM on unified memory systems like this? • Real-world throughput vs expectations? Would appreciate any insights from people running similar setups.