NVIDIA DGX Spark 16대 클러스터 구축기 — 통합 메모리로 대형 LLM 서빙
Original: 16x Spark Cluster (Build Update) View original →
빌드 완료
LocalLLaMA 커뮤니티에서 화제가 된 16대 NVIDIA DGX Spark 클러스터 구축기가 공개됐다. 작성자는 FS N8510 스위치를 통해 16개 노드를 QSFP56 케이블로 연결, 노드당 200Gbps(레일당 100~111Gbps 듀얼 레일) 네트워킹을 달성했다.
왜 H100 대신 DGX Spark를 선택했나
핵심은 통합 메모리다. H100이나 GB300보다 DGX Spark를 선택한 이유는 NVIDIA 에코시스템 내에서 통합 메모리 용량을 극대화하기 위해서다. 8대일 때는 GLM-5.1-NVFP4(434GB) 모델을 TP=8로 서빙했다. 16대가 된 지금은 DeepSeek와 Kimi를 테스트할 예정이다.
셋업 과정
각 Spark는 Nvidia 커스텀 Ubuntu를 기본 탑재해 대부분의 소프트웨어가 사전 설치되어 있다. 셋업 과정은 랙 장착 → 전원 ON → 전 노드에 동일 계정 생성 → 노드당 약 20분 업데이트 대기 → 패스워드리스 SSH 설정 → 점보 프레임, IP 설정(스크립트 자동화) 순으로 진행했다.
향후 계획
장기 계획은 프리필/디코드 분리 구조다. 통합 메모리의 이점을 살려 대형 언어 모델을 효율적으로 분산 처리하는 인프라를 목표로 한다. 커뮤니티에서는 개인 또는 소규모 팀 수준의 이런 대규모 GPU 클러스터 구축이 점점 현실화되고 있음을 보여주는 사례로 평가하고 있다.
Related Articles
LocalLLaMA 유저가 NVIDIA DGX Spark 16대를 200Gbps 패브릭으로 연결한 클러스터 구축을 완료했다. 통합 메모리 극대화를 목표로 DeepSeek, Kimi 등 대형 모델 서빙을 테스트 중이다.
NVIDIA AI PC는 2026년 4월 2일 X에서 Gemma 4 모델군이 RTX GPU와 DGX Spark에 최적화됐고, 특히 26B와 31B가 local agentic AI에 적합하다고 밝혔다. NVIDIA 공식 blog는 이 협업이 RTX PC, workstation, DGX Spark, Jetson Orin Nano, data center 배포까지 아우르며, native tool use, multimodal input, Ollama와 llama.cpp 기반 local runtime 지원을 제공한다고 설명한다.
LocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.
Comments (0)
No comments yet. Be the first to comment!