AgentPerf初公開、GB300はH200比でMWあたりcoding agent最大20倍

AI agentを支えるインフラでは、短い応答をどれだけ速く出すかだけでは足りない。長いセッション、tool call、変動するコンテキスト、待ち時間の制約を同時に扱えるかが問われる。NVIDIAが2026年6月12日に示したAA-AgentPerfの結果は、その評価軸を正面に置いている。

NVIDIA Technical Blogによると、AA-AgentPerfはArtificial Analysisが作成した公開マルチベンダーのハードウェアベンチマークだ。測るのは、推論システムがモデルごとのSLOを満たしながら、同時に何個のAI agentを支えられるか。出力トークン速度とtime-to-first-tokenを組み合わせ、accelerator単位とMW単位で正規化する。

特徴は、agentic coding workloadの扱いにある。事前記録されたtrajectoryにはLLM呼び出しとtool callが混在し、リクエスト長は5Kから131K、平均は約27Kに分布する。CPU側のtool call遅延も中央値1秒の分布として模擬され、ベンチマーク専用の最適化を避けるためテストセットは非公開にされている。

NVIDIAが強調したローンチ時の比較はGB300 NVL72とH200だ。DeepSeek-V4-ProのSLO=30構成で、GB300 NVL72はMWあたり61.4K同時agent、GPUあたり57.5同時agentとされた。H200はそれぞれ2.6Kと1.4。NVIDIAはこの差を、前世代比で最大20倍のagentic coding性能として説明している。

これはモデル性能表とは別の競争を示している。coding agentは一度の回答では終わらず、複数のtool call、長いコンテキスト、非決定的な分岐を伴う。データセンター側の判断材料は、固定された電力予算の中で何人分のagentセッションをSLO内に収められるかへ移っていく。

AgentPerf初公開、GB300はH200比でMWあたりcoding agent最大20倍

Related Articles

NVIDIA ModelExpress、DeepSeek-V4 Pro起動を8分から1分台へ

NVIDIA TwoTower、品質98.7%維持で生成速度2.42倍の拡散LLMを研究公開へ進む実装

Nemotron 3 Nano、5ドル未満のRLで数学精度22%から91%へ