NVIDIA Vera Rubin 플랫폼 출시... MoE 학습 GPU 75% 절감·추론 비용 10배 감소
CES 2026에서 Vera Rubin 공개
NVIDIA가 CES 2026에서 차세대 AI 플랫폼 Vera Rubin을 발표했다. Rubin은 1개의 Vera CPU와 2개의 Rubin GPU를 단일 프로세서에 결합한 슈퍼칩으로, 6개의 칩으로 구성된 Rubin 플랫폼의 핵심이다.
혁신적 성능 향상
NVIDIA는 Rubin 플랫폼이 기존 Blackwell 시스템 대비 다음과 같은 성능 개선을 제공한다고 밝혔다:
- MoE 모델 학습: 동일한 모델 학습에 필요한 GPU 수를 4배 감소 (75% 절감)
- 추론 토큰 비용: 10배 감소
이는 특히 GPT-4, Llama 4 Maverick, DeepSeek V4 같은 대규모 Mixture-of-Experts(MoE) 모델에 최적화되었다.
에이전틱 AI와 추론 모델 겨냥
NVIDIA는 Rubin 플랫폼을 에이전틱 AI(Agentic AI), 고급 추론 모델(Advanced Reasoning Models), MoE 모델에 이상적이라고 강조했다. 이는 2026년 AI 산업의 핵심 트렌드를 반영한다.
출시 일정 및 파트너
Rubin 플랫폼은 현재 풀 프로덕션 단계에 있으며, 2026년 하반기부터 파트너사를 통해 제품이 출시된다. 주요 클라우드 제공업체(AWS, Google Cloud, Microsoft Azure) 및 서버 제조업체들이 Rubin 기반 제품을 준비 중이다.
게이밍 GPU는 2026년 공백
한편, NVIDIA는 30년 만에 처음으로 2026년 한 해 동안 새로운 게이밍 GPU를 출시하지 않을 것으로 알려졌다. 글로벌 메모리 부족 현상으로 인해 NVIDIA가 제한된 메모리 용량을 AI 가속기에 우선 배정하기 때문이다.
VibeTensor 오픈소스 공개
NVIDIA는 또한 VibeTensor를 공개했다. 이는 LLM 코딩 에이전트가 생성한 PyTorch 스타일의 딥러닝 런타임으로, Apache 2.0 라이선스로 오픈소스화되었다. Linux x86_64 + NVIDIA GPU + CUDA를 필수 요구사항으로 한다.
Related Articles
NVIDIA가 차세대 AI 플랫폼 Rubin을 발표했다. Blackwell 대비 추론 토큰 비용 10배 절감, MoE 모델 훈련 GPU 수 4배 감소를 달성하며 2026년 하반기 출시 예정이다.
LocalLLaMA의 DGX Spark 사용자 글은 NVFP4가 아직 production-ready와 거리가 멀다고 주장했다. 논쟁은 곧 NVIDIA의 프리미엄 로컬 AI 박스가 여전히 가격을 정당화하는지로 번졌다.
HN이 이 post를 흥미롭게 본 이유는 Apple Silicon unified memory가 Wasm sandbox와 GPU buffer 사이의 copy boundary를 실제로 줄일 수 있느냐는 구현 질문이었다.
Comments (0)
No comments yet. Be the first to comment!