NVIDIA DGX Spark 16대 클러스터 구축기 — 통합 메모리로 대형 LLM 서빙

빌드 완료

LocalLLaMA 커뮤니티에서 화제가 된 16대 NVIDIA DGX Spark 클러스터 구축기가 공개됐다. 작성자는 FS N8510 스위치를 통해 16개 노드를 QSFP56 케이블로 연결, 노드당 200Gbps(레일당 100~111Gbps 듀얼 레일) 네트워킹을 달성했다.

왜 H100 대신 DGX Spark를 선택했나

핵심은 통합 메모리다. H100이나 GB300보다 DGX Spark를 선택한 이유는 NVIDIA 에코시스템 내에서 통합 메모리 용량을 극대화하기 위해서다. 8대일 때는 GLM-5.1-NVFP4(434GB) 모델을 TP=8로 서빙했다. 16대가 된 지금은 DeepSeek와 Kimi를 테스트할 예정이다.

셋업 과정

각 Spark는 Nvidia 커스텀 Ubuntu를 기본 탑재해 대부분의 소프트웨어가 사전 설치되어 있다. 셋업 과정은 랙 장착 → 전원 ON → 전 노드에 동일 계정 생성 → 노드당 약 20분 업데이트 대기 → 패스워드리스 SSH 설정 → 점보 프레임, IP 설정(스크립트 자동화) 순으로 진행했다.

향후 계획

장기 계획은 프리필/디코드 분리 구조다. 통합 메모리의 이점을 살려 대형 언어 모델을 효율적으로 분산 처리하는 인프라를 목표로 한다. 커뮤니티에서는 개인 또는 소규모 팀 수준의 이런 대규모 GPU 클러스터 구축이 점점 현실화되고 있음을 보여주는 사례로 평가하고 있다.

LLM Reddit 2h ago 1 min read

NVIDIA DGX Spark 16대 클러스터 구축기 — 통합 메모리로 대형 LLM 서빙

LocalLLaMA 유저가 NVIDIA DGX Spark 16대를 200Gbps 패브릭으로 연결한 클러스터 구축을 완료했다. 통합 메모리 극대화를 목표로 DeepSeek, Kimi 등 대형 모델 서빙을 테스트 중이다.

#nvidia #dgx-spark #inference

LLM X/Twitter Apr 12, 2026 1 min read

NVIDIA와 Google, Gemma 4를 RTX GPU와 DGX Spark 기반 local agentic AI 축으로 밀다

NVIDIA AI PC는 2026년 4월 2일 X에서 Gemma 4 모델군이 RTX GPU와 DGX Spark에 최적화됐고, 특히 26B와 31B가 local agentic AI에 적합하다고 밝혔다. NVIDIA 공식 blog는 이 협업이 RTX PC, workstation, DGX Spark, Jetson Orin Nano, data center 배포까지 아우르며, native tool use, multimodal input, Ollama와 llama.cpp 기반 local runtime 지원을 제공한다고 설명한다.

#gemma-4 #nvidia #rtx

LLM Reddit 4d ago 1 min read