NVIDIA、Blackwell UltraでAgentic AI推論の効率向上を提示：最大50倍の性能効率・最大35倍のコスト低減

発表のポイント

NVIDIAは2026年2月16日のブログで、SemiAnalysis InferenceXのデータを引用し、Blackwell Ultra世代のGB300 NVL72がAgentic AI推論で大幅な効率改善を示したと発表した。主張の中核は、Hopper比で最大50倍のthroughput-per-megawatt、さらに低遅延領域で最大35倍のトークンコスト低減という数値だ。

同社は背景として、ソフトウェア開発関連のAIクエリ増加を挙げる。OpenRouterのデータでは、同種クエリ比率が前年の約11%から約50%へ拡大したとされ、コーディングアシスタントやAIエージェントの実運用で、低遅延と長文脈の両立が重要になっているという。

改善要因として示された技術

NVIDIAは、改善をGPU単体ではなくハードウェアとソフトウェアの共同最適化の成果として説明している。TensorRT-LLM、Dynamo、Mooncake、SGLangの継続改善により、Blackwell NVL72のMoE推論スループットが向上し、低遅延ワークロードではGB200でも4カ月前比で最大5倍改善したとする。

GPUカーネル最適化: 低遅延時の処理効率を向上
NVLink Symmetric Memory: GPU間メモリアクセスを効率化
Programmatic dependent launch: カーネル切替時のアイドルを削減

長文脈側では、128,000トークン入力と8,000トークン出力の例で、GB300 NVL72がGB200 NVL72比で最大1.5倍低いトークンコストを示したとしている。コードベース全体を読み込むAIコーディング用途での経済性改善を訴求する内容だ。

導入状況と次世代見通し

導入先としては、Microsoft、CoreWeave、Oracle Cloud Infrastructure(OCI)がGB300 NVL72を低遅延・長文脈推論用途に展開中とされる。NVIDIAは、Blackwell導入後もソフトウェア最適化で追加改善が続くという見方を示した。

さらに次世代Rubinについて、MoE推論でBlackwell比最大10倍のthroughput-per-megawatt、そして大規模MoE学習時のGPU必要数削減を予告した。もっとも、こうした指標はワークロード構成や運用条件で実効値が変わるため、実導入時は個別検証が必要になる。

NVIDIA、Blackwell UltraでAgentic AI推論の効率向上を提示：最大50倍の性能効率・最大35倍のコスト低減

発表のポイント

改善要因として示された技術

導入状況と次世代見通し

Related Articles

NVIDIA、Groq 3 LPXをVera Rubin向けlow-latency inference rackとして提示

NVIDIA、Dynamo 1.0を AI factories 向け inference OS として production 展開

WasmからGPUへのzero-copy inference、HNは速度差の実体を問うた

Comments (0)

Leave a Comment

Related Articles

NVIDIA、Groq 3 LPXをVera Rubin向けlow-latency inference rackとして提示
AI sources.twitter Apr 2, 2026 1 min read

NVIDIA、Dynamo 1.0を AI factories 向け inference OS として production 展開
AI sources.twitter Mar 17, 2026 1 min read

WasmからGPUへのzero-copy inference、HNは速度差の実体を問うた
AI Hacker News Apr 20, 2026 1 min read