NVIDIA DGX Spark 16대 클러스터 구축기 — 통합 메모리로 대형 LLM 서빙
Original: 16x Spark Cluster (Build Update) View original →
빌드 완료
LocalLLaMA 커뮤니티에서 화제가 된 16대 NVIDIA DGX Spark 클러스터 구축기가 공개됐다. 작성자는 FS N8510 스위치를 통해 16개 노드를 QSFP56 케이블로 연결, 노드당 200Gbps(레일당 100~111Gbps 듀얼 레일) 네트워킹을 달성했다.
왜 H100 대신 DGX Spark를 선택했나
핵심은 통합 메모리다. H100이나 GB300보다 DGX Spark를 선택한 이유는 NVIDIA 에코시스템 내에서 통합 메모리 용량을 극대화하기 위해서다. 8대일 때는 GLM-5.1-NVFP4(434GB) 모델을 TP=8로 서빙했다. 16대가 된 지금은 DeepSeek와 Kimi를 테스트할 예정이다.
셋업 과정
각 Spark는 Nvidia 커스텀 Ubuntu를 기본 탑재해 대부분의 소프트웨어가 사전 설치되어 있다. 셋업 과정은 랙 장착 → 전원 ON → 전 노드에 동일 계정 생성 → 노드당 약 20분 업데이트 대기 → 패스워드리스 SSH 설정 → 점보 프레임, IP 설정(스크립트 자동화) 순으로 진행했다.
향후 계획
장기 계획은 프리필/디코드 분리 구조다. 통합 메모리의 이점을 살려 대형 언어 모델을 효율적으로 분산 처리하는 인프라를 목표로 한다. 커뮤니티에서는 개인 또는 소규모 팀 수준의 이런 대규모 GPU 클러스터 구축이 점점 현실화되고 있음을 보여주는 사례로 평가하고 있다.
Related Articles
AI agent 인프라 경쟁이 토큰 처리량이 아니라 동시 작업 수와 전력 효율로 옮겨가고 있다. NVIDIA는 Artificial Analysis의 새 AA-AgentPerf에서 GB300 NVL72가 H200보다 MW당 동시 coding agent 처리량을 최대 20배 높였다고 밝혔다.
LLM inference 운영에서 비싼 GPU 실험을 먼저 돌릴 필요가 줄어든다. NVIDIA DynoSim은 23,608개 request trace를 Apple M4 MacBook Air에서 2.41초에 재생하며 real time 대비 약 1,500배 빠른 serving simulation을 제시했다.
NVIDIA가 Dynamo serving stack을 빠르게 실험하는 DynoSim을 공개했다. 기술 블로그 기준 Apple M4 MacBook Air에서 23,608개 요청, 60.1분 분량 트래픽을 2.41초에 재현해 약 1,500배 빠른 시뮬레이션을 보였다.