NVIDIAとSGLang、DeepSeek R1推論の大幅高速化を主張
Original: NVIDIA and SGLang report 25x DeepSeek R1 inference gain on GB300 NVL72 versus H200 View original →
投稿で示された主張
NVIDIA AI Developerは2026年3月3日のX投稿で、SGLangとの最新協業によりDeepSeek R1推論がGB300 NVL72でH200比最大25倍、GB200 NVL72でも4か月未満で8倍改善したと述べた。あわせて、大規模MoE運用におけるトークン当たりコスト低減にも言及している。
改善要因として挙げられた技術
投稿本文では、NVFP4精度、NVIDIA Dynamoベースのdisaggregation、計算と通信のオーバーラップ最適化が主要要素として示される。引用先のLMSYS投稿も同方向の改善をInferenceXv2として説明しており、モデル本体だけでなくサービング基盤の設計が性能とコストに直結することを示している。
数値解釈の注意点
一方で、25倍や8倍といった倍率はベンダー公表値であり、ワークロード条件に依存する。実運用ではトークンレート目標、シーケンス長、スケジューリング方針、カーネル実装成熟度で結果が変わり得る。それでも今回の発表は、ハードウェア世代差とサービング最適化を同時に提示し、推論基盤の投資判断に使える具体的な観測点を提供した点で重要だ。
Sources: NVIDIA AI Developer X post, LMSYS quoted X post, LMSYS blog index
Related Articles
NVIDIAは2026年3月16日、generative/agentic inference向けopen-source基盤としてDynamo 1.0を発表した。Blackwell性能の引き上げ、token cost削減、主要framework統合を一体化した点が大きい。
LocalLLaMAで注目された投稿は、SGLang b12x+NEXTN、PCIe switch topology、公開raw benchmark JSONを根拠に、デュアルRTX PRO 6000 Blackwell環境でQwen3.5-122B NVFP4が約198 tok/sに達したと共有した。
LocalLLaMA スレッドは speculative decoding 向けの block-diffusion draft model、DFlash に注目を集めた。論文は 6x 超の lossless acceleration と、vLLM、SGLang、一部 Transformers backend の直接サポートを打ち出している。
Comments (0)
No comments yet. Be the first to comment!