NVIDIA, Rubin 플랫폼 출시... 추론 비용 10배↓·훈련 GPU 4배↓

Rubin 플랫폼, 2026년 하반기 출시

NVIDIA가 차세대 AI 플랫폼 Rubin을 발표했다. Rubin 기반 제품은 2026년 하반기부터 파트너사를 통해 출시될 예정이며, 현재 완전 생산(full production) 단계에 있다.

Blackwell 대비 극적인 성능 개선

Rubin 플랫폼은 하드웨어와 소프트웨어의 극단적인 공동 설계(extreme codesign)를 통해 다음을 달성했다:

추론 토큰 비용 10배 절감: Blackwell 대비 추론 비용 대폭 감소
MoE 모델 훈련 GPU 4배 감소: Mixture-of-Experts 모델 훈련에 필요한 GPU 수를 1/4로 줄임
6개의 새로운 칩: Rubin GPU, Grace CPU, 그리고 네트워킹 칩 포함

주요 클라우드 파트너

2026년 Vera Rubin 기반 인스턴스를 최초로 배치할 클라우드 제공업체:

메가 클라우드: AWS, Google Cloud, Microsoft, OCI
NVIDIA Cloud 파트너: CoreWeave, Lambda, Nebius, Nscale
서버 제조사: Cisco, Dell, HPE, Lenovo, Supermicro

소비자 GPU는 2026년 건너뛴다

한편 NVIDIA는 2026년 게이밍 GPU 신제품 출시를 건너뛸 것으로 알려졌다. RTX 50 Super 및 RTX 60 시리즈가 메모리 부족과 수익성 차이로 인해 연기된다.

AI 칩의 이익률은 65%인 반면 그래픽 카드는 40%에 불과해, NVIDIA는 AI 생산에 집중하는 전략적 전환을 단행했다.

AI 인프라 시장 주도권 강화

Rubin 플랫폼 출시는 NVIDIA가 AI 인프라 시장에서의 압도적 우위를 2026년 이후에도 유지할 것임을 보여준다. 특히 추론 비용 절감은 LLM 서비스 제공 업체들에게 게임 체인저가 될 전망이다.

출처: NVIDIA Newsroom, TrendForce

AI Feb 12, 2026 1 min read

NVIDIA Vera Rubin 플랫폼 출시... MoE 학습 GPU 75% 절감·추론 비용 10배 감소

NVIDIA가 CES 2026에서 차세대 AI 플랫폼 Vera Rubin을 공개했다. MoE 모델 학습에 필요한 GPU를 4분의 1로 줄이고 추론 토큰 비용을 10배 절감하며, 2026년 하반기 출시 예정이다.

#nvidia #rubin #gpu

AI Hacker News Apr 20, 2026 1 min read

Wasm에서 GPU로 zero-copy inference, HN은 “어디서 빨라지나”를 물었다

HN이 이 post를 흥미롭게 본 이유는 Apple Silicon unified memory가 Wasm sandbox와 GPU buffer 사이의 copy boundary를 실제로 줄일 수 있느냐는 구현 질문이었다.

#wasm #gpu #inference

AI sources.twitter Apr 2, 2026 1 min read

NVIDIA, Groq 3 LPX를 Vera Rubin용 low-latency inference rack으로 제시

NVIDIADC는 2026년 3월 17일 X에서 Groq 3 LPX를 Vera Rubin platform용 rack-scale low-latency inference accelerator로 소개했다. NVIDIA의 3월 16일 press release와 technical blog는 LPX가 256개의 LPU, 128GB on-chip SRAM, 640 TB/s scale-up bandwidth를 갖추고 Vera Rubin NVL72와 함께 agentic AI용 heterogeneous inference path를 형성한다고 설명한다.

#nvidia #groq-3-lpx #vera-rubin