NVIDIA Blackwell基盤の推論最適化、token cost最大10倍低減を提示

論点は性能だけでなくtoken economicsへ

NVIDIAは2026年2月12日の投稿で、AIの実運用競争はモデル精度だけでなく cost per token に移行していると説明した。投稿はMIT研究を引用し、frontier水準の推論コストがインフラ・アルゴリズムの効率化で大幅低下しうると整理している。要点は、同じ品質を維持しつつ、単位トークンの処理コストをどこまで下げられるかにある。

NVIDIAによれば、Baseten、DeepInfra、Fireworks AI、Together AIはBlackwell基盤の推論スタックで、Hopper世代比で最大10倍のtoken cost低減を報告している。これらはベンダーおよびパートナー公表値だが、複数業界で同方向の改善が示されている点は注目に値する。

公開された主要ケース

医療領域では、Sully.aiがBaseten経由でopen-sourceモデルを運用し、NVFP4、TensorRT-LLM、Dynamo最適化を活用したとされる。投稿では、throughput per dollarが最大2.5倍、推論コスト90%減（10x低減）、主要業務の応答時間65%改善、さらに医師へ3,000万分超の時間を返したと記載されている。

DeepInfraのMoE事例では、cost per million tokensがHopperの20 centsからBlackwellで10 cents、NVFP4適用で5 centsへ低下したと説明され、合計4倍改善が示された。Fireworks AIとSentientのケースでは、コスト効率が25〜50%改善し、24時間で1.8 millionの待機ユーザー、1週間で5.6 millionクエリを処理したとされる。

Together AIとDecagonの事例では、音声エージェント負荷下で400ms未満応答を維持しつつ、query単価がclosed source比で6倍低減したという。

今後の見通し

NVIDIAはGB200 NVL72について、reasoning MoEでHopper比10倍のcost-per-token低減を主張し、さらにRubinではBlackwell比で10倍性能・10倍低トークンコストを目標に掲げた。産業的には、モデル選定の評価軸がqualityだけでなく、latencyとunit economicsを含む総合最適に移ることを示している。

今後の検証では、比較条件の標準化が重要になる。モデル種類、精度要件、遅延目標、負荷条件を揃えた実測が示されれば、token economics主導の次世代推論競争の実態がより明確になる。

Source: NVIDIA announcement
Reference: MIT research cited by NVIDIA

NVIDIA Blackwell基盤の推論最適化、token cost最大10倍低減を提示

論点は性能だけでなくtoken economicsへ

公開された主要ケース

今後の見通し

Related Articles

NVIDIA、Dynamo 1.0をAI factory向けinference OSとして本番投入

Orthrus-Qwen3、同一出力を保ちながら推論速度7.8倍を実現

Nemotron 3 Ultra、550B MoEでエージェント推論5倍と30%コスト削減を提示