NVIDIA DGX Spark 16台クラスター構築レポート — 統合メモリで大規模LLM推論
Original: 16x Spark Cluster (Build Update) View original →
構築完了
LocalLLaMAコミュニティで注目を集めた16台NVIDIA DGX Sparkクラスターの構築が完了した。FS N8510スイッチにQSFP56ケーブルで全ノードを接続し、ノードあたり200Gbps(デュアルレールで各100〜111Gbps)のネットワーク帯域を達成している。
なぜH100やGB300ではなくDGX Sparkを選んだのか
答えは統合メモリだ。NVIDIAエコシステム内で統合メモリ容量を最大化することが最大の目的。8台構成時はGLM-5.1-NVFP4(434GB)をTP=8で提供しており、16台になった今はDeepSeekやKimiのテストとともに、プリフィル/デコード分離アーキテクチャを目指している。
セットアップ手順
各DGX SparkはNVIDIAカスタムUbuntuを搭載しており、ソフトウェアの多くが事前インストール済み。ラッキング → 電源投入 → 全ノードへの同一ユーザーアカウント作成 → ノードあたり約20分のアップデート待機 → パスワードレスSSH・ジャンボフレーム・IPの設定(スクリプト化)の順で進めた。
この構築が示すもの
個人や小規模チームが大規模GPUクラスターを構築できる時代になってきたことを示す好例だ。純粋な計算性能よりもモデルの収容容量(統合メモリ)を重視するアプローチは、LLM推論インフラの成熟を反映している。
Related Articles
AI agent基盤の評価軸が、単純なトークン速度から同時セッション数と電力効率へ移っている。NVIDIAはArtificial AnalysisのAA-AgentPerfで、GB300 NVL72がH200よりMWあたり最大20倍のcoding agent処理能力を示したと説明した。
LLM inferenceで高いのはGPUだけでなく、実験そのものだ。NVIDIAはDynoSimが23,608 requestのtraceをApple M4 MacBook Air上で2.41秒で再生し、60.1分のserving windowを約1,500倍速で模擬したと示した。
NVIDIAはLLM推論スタックの設定探索を実機投入前に絞り込むDynoSimを示した。技術ブログでは23,608件のリクエスト、60.1分のserving windowを2.41秒で再現した例が示されている。