AI agent 병목이 GPU에서 CPU로 이동, NVIDIA Vera의 1.8배 승부

AI agent 비용 경쟁의 단위가 GPU 토큰만이 아니라 CPU 대기시간까지 넓어졌다. NVIDIA Vera는 2026년 5월 31일 full production 단계로 공개됐고, 회사는 x86 CPU 대비 task completion이 1.8배 빠르다고 제시했다. agent가 코드를 실행하고, 도구를 호출하고, 결과를 검증하는 시간이 길어질수록 GPU 밖의 orchestration 비용이 커진다는 점을 정면으로 겨냥한 제품이다.

Vera는 88개 Olympus core, Spatial Multithreading, 최대 1.2TB/s 대역폭의 LPDDR5X 메모리 서브시스템을 쓴다. Vera Rubin 플랫폼에서는 NVLink-C2C로 CPU와 GPU 사이에 최대 1.8TB/s coherent bandwidth를 제공한다. NVIDIA는 Vera가 standalone server, Vera Rubin system, Vera BlueField-4 STX AI storage platform을 모두 구동한다고 설명했다. 단순한 host CPU가 아니라 AI factory 전체에서 Python runtime, sandboxed code execution, orchestration logic, analytics pipeline을 처리하는 역할이다.

도입 명단도 이 기사의 무게를 만든다. NVIDIA는 Anthropic, OpenAI, SpaceXAI, ByteDance, CoreWeave, Oracle Cloud Infrastructure, Lambda, Nebius, Nscale 등이 Vera를 검토하거나 배치 계획에 포함한다고 밝혔다. Dell Technologies, HPE, Lenovo, Supermicro와 대만 시스템 제조사들도 standalone Vera CPU system을 만들 예정이다. NYSE는 하루 1.1조 건이 넘는 메시지를 처리하는 시장 인프라에서 Vera 기반 시스템 확장을 언급했다.

확인할 지점은 가을부터다. Vera system은 system builder와 cloud partner를 통해 올가을 제공될 예정이다. 실제 데이터센터에서 agent throughput, 전력 효율, sandbox 실행 지연이 얼마나 개선되는지가 관건이다. 그래도 이번 공개는 한 가지 방향을 분명히 한다. 장시간 agent가 늘수록 AI 인프라의 병목은 GPU memory와 accelerator만이 아니라 CPU-bound tool loop까지 포함한다.

AI agent 병목이 GPU에서 CPU로 이동, NVIDIA Vera의 1.8배 승부

Related Articles

NVIDIA Vera, agent loop용 CPU에서 x86 대비 1.8배 per-core 성능

SpatialClaw, 20개 공간 추론 벤치마크에서 기존 에이전트보다 11.2점 우위

AlphaEvolve GA 전환, 물류·칩·HPC 최적화가 Google Cloud 상품으로