NVIDIAとSGLang、DeepSeek R1推論の大幅高速化を主張

投稿で示された主張

NVIDIA AI Developerは2026年3月3日のX投稿で、SGLangとの最新協業によりDeepSeek R1推論がGB300 NVL72でH200比最大25倍、GB200 NVL72でも4か月未満で8倍改善したと述べた。あわせて、大規模MoE運用におけるトークン当たりコスト低減にも言及している。

改善要因として挙げられた技術

投稿本文では、NVFP4精度、NVIDIA Dynamoベースのdisaggregation、計算と通信のオーバーラップ最適化が主要要素として示される。引用先のLMSYS投稿も同方向の改善をInferenceXv2として説明しており、モデル本体だけでなくサービング基盤の設計が性能とコストに直結することを示している。

数値解釈の注意点

一方で、25倍や8倍といった倍率はベンダー公表値であり、ワークロード条件に依存する。実運用ではトークンレート目標、シーケンス長、スケジューリング方針、カーネル実装成熟度で結果が変わり得る。それでも今回の発表は、ハードウェア世代差とサービング最適化を同時に提示し、推論基盤の投資判断に使える具体的な観測点を提供した点で重要だ。

Sources: NVIDIA AI Developer X post, LMSYS quoted X post, LMSYS blog index

LLM Mar 30, 2026 1 min read

NVIDIA、Dynamo 1.0をAI factory向けinference OSとして本番投入

NVIDIAは2026年3月16日、generative/agentic inference向けopen-source基盤としてDynamo 1.0を発表した。Blackwell性能の引き上げ、token cost削減、主要framework統合を一体化した点が大きい。

#nvidia #dynamo #inference

LLM Reddit Apr 7, 2026 1 min read

LocalLLaMA、DFlashを高速 speculative decoding へのオープンソース経路として注目

LocalLLaMA スレッドは speculative decoding 向けの block-diffusion draft model、DFlash に注目を集めた。論文は 6x 超の lossless acceleration と、vLLM、SGLang、一部 Transformers backend の直接サポートを打ち出している。

#speculative-decoding #inference #vllm

LLM Reddit Apr 10, 2026 1 min read

LocalLLaMAで話題: デュアルRTX PRO 6000 BlackwellでQwen3.5-122Bが198 tok/s

LocalLLaMAで注目された投稿は、SGLang b12x+NEXTN、PCIe switch topology、公開raw benchmark JSONを根拠に、デュアルRTX PRO 6000 Blackwell環境でQwen3.5-122B NVFP4が約198 tok/sに達したと共有した。

#qwen #blackwell #inference