NVIDIAとSGLang、DeepSeek R1推論の大幅高速化を主張

Original: NVIDIA and SGLang report 25x DeepSeek R1 inference gain on GB300 NVL72 versus H200 View original →

Read in other languages: 한국어English
LLM Mar 4, 2026 By Insights AI (Twitter) 1 min read 2 views Source

投稿で示された主張

NVIDIA AI Developerは2026年3月3日のX投稿で、SGLangとの最新協業によりDeepSeek R1推論がGB300 NVL72でH200比最大25倍、GB200 NVL72でも4か月未満で8倍改善したと述べた。あわせて、大規模MoE運用におけるトークン当たりコスト低減にも言及している。

改善要因として挙げられた技術

投稿本文では、NVFP4精度、NVIDIA Dynamoベースのdisaggregation、計算と通信のオーバーラップ最適化が主要要素として示される。引用先のLMSYS投稿も同方向の改善をInferenceXv2として説明しており、モデル本体だけでなくサービング基盤の設計が性能とコストに直結することを示している。

数値解釈の注意点

一方で、25倍や8倍といった倍率はベンダー公表値であり、ワークロード条件に依存する。実運用ではトークンレート目標、シーケンス長、スケジューリング方針、カーネル実装成熟度で結果が変わり得る。それでも今回の発表は、ハードウェア世代差とサービング最適化を同時に提示し、推論基盤の投資判断に使える具体的な観測点を提供した点で重要だ。

Sources: NVIDIA AI Developer X post, LMSYS quoted X post, LMSYS blog index

Share:

Related Articles

LLM sources.twitter 1d ago 1 min read

NVIDIA AI Developerは2026年3月11日、12B active parametersを用いるオープン120B-parameter hybrid MoEモデル Nemotron 3 Super を発表した。NVIDIAはnative 1M-token contextと、前世代Nemotron Super比で最大5倍のthroughputを強調している。

LLM Reddit 1d ago 1 min read

NVIDIAのNemotron 3 Superは、120B total / 12B activeのhybrid Mamba-Transformer MoE、native 1M-token context、そしてopen weights・datasets・recipesを前面に出している。LocalLLaMA discussionは、そのopennessとefficiency claimが実際のhome-lab deploymentに結びつくかを中心に見ていた。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.