Skip to content

AgentPerf初公開、GB300はH200比でMWあたりcoding agent最大20倍

Original: NVIDIA Achieves Leading Agentic Coding Performance on First Agentic AI Benchmark View original →

Read in other languages: 한국어English
LLM Jun 13, 2026 By Insights AI 1 min read Source

AI agentを支えるインフラでは、短い応答をどれだけ速く出すかだけでは足りない。長いセッション、tool call、変動するコンテキスト、待ち時間の制約を同時に扱えるかが問われる。NVIDIAが2026年6月12日に示したAA-AgentPerfの結果は、その評価軸を正面に置いている。

NVIDIA Technical Blogによると、AA-AgentPerfはArtificial Analysisが作成した公開マルチベンダーのハードウェアベンチマークだ。測るのは、推論システムがモデルごとのSLOを満たしながら、同時に何個のAI agentを支えられるか。出力トークン速度とtime-to-first-tokenを組み合わせ、accelerator単位とMW単位で正規化する。

特徴は、agentic coding workloadの扱いにある。事前記録されたtrajectoryにはLLM呼び出しとtool callが混在し、リクエスト長は5Kから131K、平均は約27Kに分布する。CPU側のtool call遅延も中央値1秒の分布として模擬され、ベンチマーク専用の最適化を避けるためテストセットは非公開にされている。

NVIDIAが強調したローンチ時の比較はGB300 NVL72とH200だ。DeepSeek-V4-ProのSLO=30構成で、GB300 NVL72はMWあたり61.4K同時agent、GPUあたり57.5同時agentとされた。H200はそれぞれ2.6Kと1.4。NVIDIAはこの差を、前世代比で最大20倍のagentic coding性能として説明している。

これはモデル性能表とは別の競争を示している。coding agentは一度の回答では終わらず、複数のtool call、長いコンテキスト、非決定的な分岐を伴う。データセンター側の判断材料は、固定された電力予算の中で何人分のagentセッションをSLO内に収められるかへ移っていく。

Share: Long

Related Articles