NVIDIA、Blackwell UltraでAgentic AI推論の効率向上を提示:最大50倍の性能効率・最大35倍のコスト低減
Original: New SemiAnalysis InferenceX Data Shows NVIDIA Blackwell Ultra Delivers up to 50x Better Performance and 35x Lower Costs for Agentic AI View original →
発表のポイント
NVIDIAは2026年2月16日のブログで、SemiAnalysis InferenceXのデータを引用し、Blackwell Ultra世代のGB300 NVL72がAgentic AI推論で大幅な効率改善を示したと発表した。主張の中核は、Hopper比で最大50倍のthroughput-per-megawatt、さらに低遅延領域で最大35倍のトークンコスト低減という数値だ。
同社は背景として、ソフトウェア開発関連のAIクエリ増加を挙げる。OpenRouterのデータでは、同種クエリ比率が前年の約11%から約50%へ拡大したとされ、コーディングアシスタントやAIエージェントの実運用で、低遅延と長文脈の両立が重要になっているという。
改善要因として示された技術
NVIDIAは、改善をGPU単体ではなくハードウェアとソフトウェアの共同最適化の成果として説明している。TensorRT-LLM、Dynamo、Mooncake、SGLangの継続改善により、Blackwell NVL72のMoE推論スループットが向上し、低遅延ワークロードではGB200でも4カ月前比で最大5倍改善したとする。
- GPUカーネル最適化: 低遅延時の処理効率を向上
- NVLink Symmetric Memory: GPU間メモリアクセスを効率化
- Programmatic dependent launch: カーネル切替時のアイドルを削減
長文脈側では、128,000トークン入力と8,000トークン出力の例で、GB300 NVL72がGB200 NVL72比で最大1.5倍低いトークンコストを示したとしている。コードベース全体を読み込むAIコーディング用途での経済性改善を訴求する内容だ。
導入状況と次世代見通し
導入先としては、Microsoft、CoreWeave、Oracle Cloud Infrastructure(OCI)がGB300 NVL72を低遅延・長文脈推論用途に展開中とされる。NVIDIAは、Blackwell導入後もソフトウェア最適化で追加改善が続くという見方を示した。
さらに次世代Rubinについて、MoE推論でBlackwell比最大10倍のthroughput-per-megawatt、そして大規模MoE学習時のGPU必要数削減を予告した。もっとも、こうした指標はワークロード構成や運用条件で実効値が変わるため、実導入時は個別検証が必要になる。
Related Articles
NVIDIAAIはThinking Machinesと提携し、frontier AI model training向けに少なくとも1 gigawatt規模のNVIDIA Vera Rubin systemを配備すると発表した。Thinking Machinesは、customizable AIを提供するplatformもこの基盤で支えるとしている。
OpenAIは2026年2月27日、$110Bの新規投資とAmazon・NVIDIAとの提携拡大を発表した。背景には900Mの週間ChatGPT利用者、9 millionの有料法人利用者、そして急増するCodex需要があると説明している。
NVIDIAは主要通信事業者と装置ベンダーがopen and secure AI-native platformsを基盤に6Gを構築することで合意したと発表した。今回の動きは、6G競争をradiosとspectrumだけでなくprogrammable AI infrastructureを巡る競争へ広げるものだ。
Comments (0)
No comments yet. Be the first to comment!