NVIDIA Vera Rubin 플랫폼 출시... MoE 학습 GPU 75% 절감·추론 비용 10배 감소

CES 2026에서 Vera Rubin 공개

NVIDIA가 CES 2026에서 차세대 AI 플랫폼 Vera Rubin을 발표했다. Rubin은 1개의 Vera CPU와 2개의 Rubin GPU를 단일 프로세서에 결합한 슈퍼칩으로, 6개의 칩으로 구성된 Rubin 플랫폼의 핵심이다.

혁신적 성능 향상

NVIDIA는 Rubin 플랫폼이 기존 Blackwell 시스템 대비 다음과 같은 성능 개선을 제공한다고 밝혔다:

MoE 모델 학습: 동일한 모델 학습에 필요한 GPU 수를 4배 감소 (75% 절감)
추론 토큰 비용: 10배 감소

이는 특히 GPT-4, Llama 4 Maverick, DeepSeek V4 같은 대규모 Mixture-of-Experts(MoE) 모델에 최적화되었다.

에이전틱 AI와 추론 모델 겨냥

NVIDIA는 Rubin 플랫폼을 에이전틱 AI(Agentic AI), 고급 추론 모델(Advanced Reasoning Models), MoE 모델에 이상적이라고 강조했다. 이는 2026년 AI 산업의 핵심 트렌드를 반영한다.

출시 일정 및 파트너

Rubin 플랫폼은 현재 풀 프로덕션 단계에 있으며, 2026년 하반기부터 파트너사를 통해 제품이 출시된다. 주요 클라우드 제공업체(AWS, Google Cloud, Microsoft Azure) 및 서버 제조업체들이 Rubin 기반 제품을 준비 중이다.

게이밍 GPU는 2026년 공백

한편, NVIDIA는 30년 만에 처음으로 2026년 한 해 동안 새로운 게이밍 GPU를 출시하지 않을 것으로 알려졌다. 글로벌 메모리 부족 현상으로 인해 NVIDIA가 제한된 메모리 용량을 AI 가속기에 우선 배정하기 때문이다.

VibeTensor 오픈소스 공개

NVIDIA는 또한 VibeTensor를 공개했다. 이는 LLM 코딩 에이전트가 생성한 PyTorch 스타일의 딥러닝 런타임으로, Apache 2.0 라이선스로 오픈소스화되었다. Linux x86_64 + NVIDIA GPU + CUDA를 필수 요구사항으로 한다.

NVIDIA Vera Rubin 플랫폼 출시... MoE 학습 GPU 75% 절감·추론 비용 10배 감소

CES 2026에서 Vera Rubin 공개

혁신적 성능 향상

에이전틱 AI와 추론 모델 겨냥

출시 일정 및 파트너

게이밍 GPU는 2026년 공백

VibeTensor 오픈소스 공개

Related Articles

NVIDIA, Rubin 플랫폼 출시... 추론 비용 10배↓·훈련 GPU 4배↓

LocalLLaMA 경고: DGX Spark의 NVFP4는 아직 production-ready 단계가 아니라는 지적

Wasm에서 GPU로 zero-copy inference, HN은 “어디서 빨라지나”를 물었다

Comments (0)

Leave a Comment

Related Articles

NVIDIA, Rubin 플랫폼 출시... 추론 비용 10배↓·훈련 GPU 4배↓
AI Feb 13, 2026 1 min read

LocalLLaMA 경고: DGX Spark의 NVFP4는 아직 production-ready 단계가 아니라는 지적
AI Reddit Apr 5, 2026 1 min read

Wasm에서 GPU로 zero-copy inference, HN은 “어디서 빨라지나”를 물었다
AI Hacker News Apr 20, 2026 1 min read