메뉴
BL
r/LocalLLaMA 30일 전

16대 DGX Spark 클러스터 구축 완료

IMP
7/10
핵심 요약

엔비디아 DGX Spark 16대로 200Gbps 통신 속도의 고성능 클러스터 구축을 완료한 사례입니다. 통일 메모리(Unified Memory) 용량을 극대화해 대규모 언어 모델(GLM-5.1-NVFP4) 서빙을 수행하며, 향후 Mac Studio를 추가해 프리필과 디코드 단계를 분리할 계획입니다.

번역된 본문

구축이 완료되었습니다. 패브릭에 연결된 16대의 DGX Spark가 모두 최대 전송 속도(Line rate)를 내고 있습니다.

설정 작업은 시간이 다소 걸렸지만, 솔직히 예상보다는 순조로왔습니다. 각 Spark는 엔비디아 버전의 우분투(Ubuntu)가 기본 탑재되어 있어, 대부분의 필수 요소가 미리 설치되어 바로 사용할 수 있는 상태입니다. 설정을 위해 제가 한 일은 서버를 랙(Rack)에 장착하고 전원을 켠 뒤, 모든 노드에 동일한 사용자 및 비밀번호를 생성하고, 노드당 약 20분 정도 업데이트를 기다린 다음, 시간을 절약하기 위해 스크립트를 짜서 SSH 비밀번호 없는 로그인, 점보 프레임(Jumbo frames), IP 등을 구성하는 것이었습니다.

각 Spark는 단일 QSFP56 케이블을 통해 FS N8510 스위치에 연결됩니다. DGX Spark는 자체적인 두 개의 NIC 인터페이스를 각 포트에 본딩(Bonding)하므로, 단일 케이블로 듀얼 레일(Dual rail) 구성을 얻을 수 있습니다. 제가 확인한 결과 레일당 100~111Gbps의 속도가 나오며, 이를 병합하면 광고된 사양인 200Gbps 대역폭을 달성합니다.

H100이나 GB300 대신 이 시스템을 구축한 이유는 무엇인가요?

바로 '통일 메모리(Unified Memory)' 때문입니다. 이 구축의 핵심 목적은 엔비디아 생태계 내에서 통일 메모리 용량을 극대화하는 것입니다. 기존 8개 노드로 구성된 클러스터에서는 TP=8 설정으로 GLM-5.1-NVFP4 (434GB) 모델을 서빙하고 있었습니다. 이제 이 환경에서 DeepSeek와 Kimi 모델을 추가로 테스트해 볼 예정입니다.

장기적인 계획은 프리필(Prefill)과 디코드(Decode) 작업을 분리하는 것입니다. Spark 클러스터가 대규모 병렬 처리량이 필요한 프리필을 담당하고, M5 Ultra Mac Studio가 출시되면 랙에 2~4대를 추가하여 디코드 작업을 전담시킬 계획입니다.

완성된 랙 구성 (위에서 아래로):

- 1U 브러시 패널 (Brush Panel) - OPNSense 방화벽 - Mikrotik 10Gb 스위치 (인터넷 업링크용) - Mikrotik 100Gb 스위치 (NAS와의 HPC 연결용) - 1U 브러시 패널 - QNAP 374TB U.2 NAS - 관리용 서버 (Management Server) - 듀얼 4090 워크스테이션 - 백업용 듀얼 4090 워크스테이션 (동일 사양) - FS 200Gbps QSFP56 패브릭 스위치 (Spark 클러스터용) - 1U 브러시 패널 - DGX Spark 8대 (첫 번째 선반) - DGX Spark 8대 (두 번째 선반) - 2U 스페이서 패널 - SuperMicro 4x H100 NVL 스테이션 - GH200

원문 보기
원문 보기 (영어)
Build is done. 16 DGX Sparks on the fabric, all hitting line rate. Setup was time consuming but honestly smoother than I expected. Each Spark runs Nvidia’s flavor of Ubuntu out of the box with mostly everything pre installed and ready to go. For setup I had to rack them, power on, create the same user/pass across all nodes, wait about 20 minutes per node for updates, then configure passwordless SSH, jumbo frames, IPs, etc. which I scripted to save time. Each Spark connects to the FS N8510 switch with a single QSFP56 cable. The DGX Spark bonds its two NIC interfaces into each port, so you get dual rail over one cable. I'm seeing 100 to 111 Gbps per rail, which aggregates to the advertised 200 Gbps. **Why this over H100s or a GB300?** Unified memory. The whole point is maximizing unified memory capacity within the Nvidia ecosystem. With 8 nodes I was serving GLM-5.1-NVFP4 (434GB) at TP=8. Now going to test with DeepSeek and Kimi The longer term plan is a prefill/decode split. The Spark cluster handles prefill (massive parallel throughput), and once the M5 Ultra Mac Studios drop I'll add 2 to 4 into the rack for decode. — Full rack, top to bottom: \- 1U Brush Panel \- OPNSense Firewall \- Mikrotik 10Gb switch (internet uplink) \- Mikrotik 100Gb switch (HPC to NAS) \- 1U Brush Panel \- QNAP 374TB all U.2 NAS \- Management Server \- Dual 4090 Workstation \- Backup Dual 4090 Workstation (identical specs) \- FS 200Gbps QSFP56 Fabric Switch (Spark cluster) \- 1U Brush Panel \- 8x DGX Spark Shelf One \- 8x DGX Spark Shelf Two \- 2U Spacer Panel \- SuperMicro 4x H100 NVL Station \- GH200