AI agent 병목이 GPU에서 CPU로 이동, NVIDIA Vera의 1.8배 승부
Original: NVIDIA Unveils Vera, the CPU for Agents View original →
AI agent 비용 경쟁의 단위가 GPU 토큰만이 아니라 CPU 대기시간까지 넓어졌다. NVIDIA Vera는 2026년 5월 31일 full production 단계로 공개됐고, 회사는 x86 CPU 대비 task completion이 1.8배 빠르다고 제시했다. agent가 코드를 실행하고, 도구를 호출하고, 결과를 검증하는 시간이 길어질수록 GPU 밖의 orchestration 비용이 커진다는 점을 정면으로 겨냥한 제품이다.
Vera는 88개 Olympus core, Spatial Multithreading, 최대 1.2TB/s 대역폭의 LPDDR5X 메모리 서브시스템을 쓴다. Vera Rubin 플랫폼에서는 NVLink-C2C로 CPU와 GPU 사이에 최대 1.8TB/s coherent bandwidth를 제공한다. NVIDIA는 Vera가 standalone server, Vera Rubin system, Vera BlueField-4 STX AI storage platform을 모두 구동한다고 설명했다. 단순한 host CPU가 아니라 AI factory 전체에서 Python runtime, sandboxed code execution, orchestration logic, analytics pipeline을 처리하는 역할이다.
도입 명단도 이 기사의 무게를 만든다. NVIDIA는 Anthropic, OpenAI, SpaceXAI, ByteDance, CoreWeave, Oracle Cloud Infrastructure, Lambda, Nebius, Nscale 등이 Vera를 검토하거나 배치 계획에 포함한다고 밝혔다. Dell Technologies, HPE, Lenovo, Supermicro와 대만 시스템 제조사들도 standalone Vera CPU system을 만들 예정이다. NYSE는 하루 1.1조 건이 넘는 메시지를 처리하는 시장 인프라에서 Vera 기반 시스템 확장을 언급했다.
확인할 지점은 가을부터다. Vera system은 system builder와 cloud partner를 통해 올가을 제공될 예정이다. 실제 데이터센터에서 agent throughput, 전력 효율, sandbox 실행 지연이 얼마나 개선되는지가 관건이다. 그래도 이번 공개는 한 가지 방향을 분명히 한다. 장시간 agent가 늘수록 AI 인프라의 병목은 GPU memory와 accelerator만이 아니라 CPU-bound tool loop까지 포함한다.
Related Articles
Claude Code와 Cowork 같은 에이전트가 실제 업무 권한을 얻으면서, 위험의 초점은 모델 설득이 아니라 실행 환경 통제로 이동했다. Anthropic은 사용자 승인 프롬프트의 93%가 그대로 통과된다는 수치를 근거로 샌드박스와 격리를 전면에 세웠다.
xAI가 Grok Build를 유료 사용자 전체 베타로 열며, 챗봇을 앱·자동화 제작 도구로 확장했다. 트윗은 Plan Mode, Imagine, CLI를 한 흐름에 묶고 조회수 5,300만 회를 넘기며 빠르게 확산됐다.
NVIDIADC는 2026년 3월 17일 X에서 Groq 3 LPX를 Vera Rubin platform용 rack-scale low-latency inference accelerator로 소개했다. NVIDIA의 3월 16일 press release와 technical blog는 LPX가 256개의 LPU, 128GB on-chip SRAM, 640 TB/s scale-up bandwidth를 갖추고 Vera Rubin NVL72와 함께 agentic AI용 heterogeneous inference path를 형성한다고 설명한다.
Comments (0)
No comments yet. Be the first to comment!