NVIDIA·Google Cloud, Rubin 96만개 겨냥한 AI 팩토리 청사진

NVIDIA와 Google Cloud의 새 발표를 단순한 파트너십 기사로 읽으면 핵심을 놓친다. 진짜 뉴스는 에이전트 시대에 필요한 인프라 규모를 두 회사가 어디까지 "기본값"으로 놓고 있는가다. Vera Rubin 기반 A5X 시스템, 단일 사이트 8만개 GPU, 멀티사이트 96만개 GPU, 그리고 agentic AI와 physical AI를 한 스택으로 묶는 구상이 이번 발표의 중심이다.

이 숫자가 중요한 이유는 인프라 설계의 목적이 달라졌기 때문이다. 예전엔 초거대 모델 학습이 중심이었다면, 지금은 장시간 추론, 다단계 에이전트, 로봇 시뮬레이션, 디지털 트윈 같은 워크로드가 동시에 늘고 있다. NVIDIA는 A5X가 이전 세대 대비 토큰당 추론 비용을 최대 10배 낮추고, 메가와트당 토큰 처리량을 최대 10배 높일 수 있다고 설명했다. 이 주장이 실제 운영에서도 버틴다면 기업이 에이전트를 굴리는 비용 구조가 크게 달라진다.

보안과 배치 방식도 같이 바뀐다. Google은 Gemini를 Blackwell과 Blackwell Ultra GPU 기반 Google Distributed Cloud에서 프리뷰로 돌릴 수 있다고 했고, Confidential G4 VM으로 퍼블릭 클라우드에서도 confidential computing을 제공하겠다고 밝혔다. 프롬프트, 모델, 파인튜닝 데이터가 인프라 운영자에게도 노출되지 않도록 암호화된 상태를 유지하겠다는 얘기다. 금융, 의료, 제조, 공공처럼 민감 데이터가 많은 업종에선 이 차이가 크다. 데모 AI가 아니라 배포 가능한 AI로 넘어가는 문턱이 여기에 있다.

오픈 모델 생태계를 직접 끼워 넣은 점도 눈에 띈다. Nemotron 3 Super가 Gemini Enterprise Agent Platform에 올라가고, Google은 NVIDIA NeMo RL 기반 managed reinforcement learning API도 소개했다. 앞으로의 엔터프라이즈 에이전트는 단일 프론티어 모델 하나로 끝나지 않는다. 기업은 폐쇄형 모델, 오픈웨이트, 도메인 튜닝, 워크플로별 강화학습을 섞어 쓸 가능성이 높다. 이번 스택은 그 현실을 먼저 반영했다.

마지막으로 더 흥미로운 축은 physical AI다. Omniverse, Isaac Sim, NIM microservices, Google Cloud Marketplace를 하나의 흐름으로 엮으면서 대화형 AI를 넘어서 공장, 설계, 로봇, 디지털 트윈으로 무게중심을 옮겼다. 코드 에이전트와 산업 시뮬레이션, 현장 로봇이 같은 클라우드 스택 위로 올라오는 순간 AI 인프라는 소프트웨어 비용이 아니라 생산 능력에 가까워진다. 이번 발표가 던진 메시지도 정확히 거기 있다.

NVIDIA·Google Cloud, Rubin 96만개 겨냥한 AI 팩토리 청사진

Related Articles

Google Cloud A4X Max, AI cluster를 50,000 GPU와 2배 network로 키웠다

학습용과 추론용을 갈랐다, TPU 8t·8i에 HN이 주목한 지점

NVIDIA, Groq 3 LPX를 Vera Rubin용 low-latency inference rack으로 제시

Comments (0)

Leave a Comment

Related Articles

Google Cloud A4X Max, AI cluster를 50,000 GPU와 2배 network로 키웠다

학습용과 추론용을 갈랐다, TPU 8t·8i에 HN이 주목한 지점

NVIDIA, Groq 3 LPX를 Vera Rubin용 low-latency inference rack으로 제시
AI sources.twitter Apr 2, 2026 1 min read