NVIDIAとSGLang、DeepSeek R1推論の大幅高速化を主張
Original: NVIDIA and SGLang report 25x DeepSeek R1 inference gain on GB300 NVL72 versus H200 View original →
投稿で示された主張
NVIDIA AI Developerは2026年3月3日のX投稿で、SGLangとの最新協業によりDeepSeek R1推論がGB300 NVL72でH200比最大25倍、GB200 NVL72でも4か月未満で8倍改善したと述べた。あわせて、大規模MoE運用におけるトークン当たりコスト低減にも言及している。
改善要因として挙げられた技術
投稿本文では、NVFP4精度、NVIDIA Dynamoベースのdisaggregation、計算と通信のオーバーラップ最適化が主要要素として示される。引用先のLMSYS投稿も同方向の改善をInferenceXv2として説明しており、モデル本体だけでなくサービング基盤の設計が性能とコストに直結することを示している。
数値解釈の注意点
一方で、25倍や8倍といった倍率はベンダー公表値であり、ワークロード条件に依存する。実運用ではトークンレート目標、シーケンス長、スケジューリング方針、カーネル実装成熟度で結果が変わり得る。それでも今回の発表は、ハードウェア世代差とサービング最適化を同時に提示し、推論基盤の投資判断に使える具体的な観測点を提供した点で重要だ。
Sources: NVIDIA AI Developer X post, LMSYS quoted X post, LMSYS blog index
Related Articles
オープンモデル競争は順位表だけでなく、長時間エージェントの運用コストへ移っている。NVIDIAはNemotron 3 Ultraについて、5倍高速な推論と最大30%低い複雑タスク費用を示した。
NVIDIAはLLM推論スタックの設定探索を実機投入前に絞り込むDynoSimを示した。技術ブログでは23,608件のリクエスト、60.1分のserving windowを2.41秒で再現した例が示されている。
LLM inferenceで高いのはGPUだけでなく、実験そのものだ。NVIDIAはDynoSimが23,608 requestのtraceをApple M4 MacBook Air上で2.41秒で再生し、60.1分のserving windowを約1,500倍速で模擬したと示した。