NVIDIA, 차세대 Rubin 플랫폼 공개... GPU 수 4배 감소, 추론 비용 10배 절감
개요
NVIDIA가 CES 2026에서 차세대 AI 컴퓨팅 플랫폼 Rubin을 공개했다. Rubin 플랫폼은 6개의 새로운 칩으로 구성되며, AI 슈퍼컴퓨터를 위한 차세대 아키텍처를 제시한다. 공식 발표에 따르면, Vera Rubin 슈퍼칩은 하나의 Vera CPU와 두 개의 Rubin GPU를 단일 프로세서로 결합한다.
핵심 성능 개선
효율성 혁신
Rubin은 Blackwell 시스템 대비 동일한 MoE(Mixture-of-Experts) 모델 훈련에 필요한 GPU 수를 4배 감소시킨다. 또한 추론 토큰 비용을 10배 절감한다.
타겟 사용 사례
NVIDIA는 Rubin 플랫폼이 다음 분야에 이상적이라고 설명한다:
- 에이전트형 AI(Agentic AI): 자율적으로 작업을 수행하는 AI 시스템
- 고급 추론 모델(Advanced Reasoning Models): GPT-5, o3 같은 차세대 추론 모델
- Mixture-of-Experts 모델: DeepSeek, Mixtral 같은 MoE 아키텍처
Rubin CPX: 대규모 컨텍스트 전용 GPU
NVIDIA는 Rubin CPX도 함께 발표했다. 이는 대규모 컨텍스트 처리를 위해 특별히 설계된 새로운 GPU 클래스다.
Rubin CPX 특징
- 100만 토큰 이상 처리: 소프트웨어 코딩, 생성형 비디오 등 대규모 컨텍스트가 필요한 작업
- 획기적인 속도와 효율성: 기존 GPU 대비 대규모 컨텍스트 추론에서 월등한 성능
출시 일정 및 파트너
NVIDIA Rubin은 현재 양산 중이며, Rubin 기반 제품은 2026년 하반기부터 파트너사를 통해 제공된다. 2026년 첫 Vera Rubin 기반 인스턴스를 배포할 클라우드 제공업체는 다음과 같다:
- AWS
- Google Cloud
- Microsoft Azure
- Oracle Cloud Infrastructure (OCI)
업계 영향
Rubin 플랫폼의 출시는 AI 컴퓨팅의 효율성을 한 단계 끌어올린다. 특히 GPU 수 4배 감소와 추론 비용 10배 절감은 대규모 AI 모델 개발 및 배포의 경제성을 획기적으로 개선한다.
Jensen Huang CEO는 CES 2026 기조연설에서 "Rubin은 에이전트형 AI와 차세대 추론 모델을 위한 완벽한 플랫폼"이라고 강조했다.
Rubin CPX의 의미
100만 토큰 처리 능력은 전체 코드베이스 분석, 장편 비디오 생성, 수백 페이지 문서 이해 등 새로운 AI 응용 분야를 가능하게 한다. 이는 GPT-5.2의 400K 토큰 컨텍스트 윈도우를 훨씬 뛰어넘는 수준이다.
Related Articles
NVIDIA revealed detailed specs for Vera Rubin NVL72. Each Rubin GPU delivers 50 PFLOPS inference (5x Blackwell GB200), 22 TB/s HBM4 bandwidth (2.8x Blackwell), and cuts inference cost per million tokens by 10x. Ships H2 2026.
NVIDIA unveiled its next-gen AI platform Rubin, delivering 10x reduction in inference token cost and 4x fewer GPUs for MoE model training vs. Blackwell. Launch planned for H2 2026.
NVIDIA announced a multigenerational strategic partnership with Meta on February 17, covering millions of Blackwell and Rubin GPUs, the first large-scale Grace CPU deployment, and WhatsApp privacy computing via NVIDIA Confidential Computing.
Comments (0)
No comments yet. Be the first to comment!