AgentPerf 첫 공개, GB300이 H200보다 MW당 coding agent 20배 처리

AI agent를 얼마나 많이, 얼마나 오래, 어느 전력 안에서 돌릴 수 있는지가 새 인프라 지표로 올라왔다. NVIDIA가 2026년 6월 12일 공개한 AA-AgentPerf 결과는 단순 토큰 속도보다 동시 agent 세션과 전력당 처리량을 전면에 세운다.

NVIDIA Technical Blog에 따르면 AA-AgentPerf는 Artificial Analysis가 만든 공개 멀티벤더 하드웨어 벤치마크다. 기준은 inference 시스템이 모델별 SLO를 만족하면서 몇 개의 AI agent를 동시에 지원할 수 있는지다. 출력 토큰 속도와 time-to-first-token 기준을 함께 보며, 결과는 accelerator당, MW당 성능으로 정규화된다.

테스트가 흥미로운 이유는 agentic coding workload의 지저분함을 그대로 넣으려 하기 때문이다. 사전 기록된 coding agent trajectory에는 LLM 호출과 tool call이 섞이고, 요청 길이는 5K에서 131K까지 분포하며 평균은 약 27K다. CPU 쪽 tool call 지연도 1초 중앙값 분포로 모사했고, 테스트 세트는 벤치마크 전용 최적화를 막기 위해 비공개로 유지된다.

출시 시점의 대표 수치는 GB300 NVL72와 H200 비교다. NVIDIA는 DeepSeek-V4-Pro SLO=30 구성에서 GB300 NVL72가 MW당 61.4K 동시 agent, GPU당 57.5 동시 agent를 기록했다고 제시했다. H200은 각각 2.6K, 1.4로 표시됐다. 블로그는 이를 이전 세대 대비 최대 20배 높은 agentic coding 성능으로 설명한다.

이 결과는 모델 품질 경쟁과 별개의 병목을 드러낸다. agent 제품은 하나의 긴 답변보다 여러 tool call, 긴 컨텍스트, 비결정적 분기, 사용자 대기시간이 한꺼번에 얽힌다. 그래서 앞으로 데이터센터 구매 결정은 “어떤 모델이 더 똑똑한가”뿐 아니라 “동시에 몇 명의 agent 사용자를 SLO 안에 붙잡을 수 있는가”로 갈라질 가능성이 크다.

AgentPerf 첫 공개, GB300이 H200보다 MW당 coding agent 20배 처리

Related Articles

NVIDIA ModelExpress, DeepSeek-V4 Pro 기동 시간을 8분에서 1분대로 단축

NVIDIA TwoTower, 98.7% 품질 유지하며 생성 속도 2.42배 높인 확산 LLM

Nemotron 3 Nano, 5달러 미만 RL로 수학 정확도 22%에서 91%까지 상승