NVIDIA、Rubinプラットフォーム発表... 推論コスト10倍↓・訓練GPU 4倍↓
Rubinプラットフォーム、2026年下半期リリース
NVIDIAが次世代AIプラットフォームRubinを発表した。Rubin基盤製品は2026年下半期からパートナー企業を通じてリリースされる予定で、現在フル生産(full production)段階にある。
Blackwell比で劇的な性能向上
Rubinプラットフォームはハードウェアとソフトウェアの極端な共同設計(extreme codesign)により以下を達成した:
- 推論トークンコスト10倍削減: Blackwell比で推論コストを大幅削減
- MoEモデル訓練GPU 4倍削減: Mixture-of-Expertsモデル訓練に必要なGPU数を1/4に削減
- 6つの新チップ: Rubin GPU、Grace CPU、ネットワーキングチップを含む
主要クラウドパートナー
2026年にVera Rubin基盤インスタンスを最初に配備するクラウドプロバイダー:
- メガクラウド: AWS、Google Cloud、Microsoft、OCI
- NVIDIA Cloudパートナー: CoreWeave、Lambda、Nebius、Nscale
- サーバーメーカー: Cisco、Dell、HPE、Lenovo、Supermicro
コンシューマーGPUは2026年スキップ
一方、NVIDIAは2026年のゲーミングGPU新製品リリースをスキップすると報じられている。RTX 50 SuperおよびRTX 60シリーズがメモリ不足と収益性の違いにより延期される。
AIチップの利益率は65%であるのに対しグラフィックカードは40%に過ぎず、NVIDIAはAI生産に集中する戦略的転換を実行した。
AIインフラ市場主導権の強化
Rubinプラットフォームのリリースは、NVIDIAがAIインフラ市場での圧倒的優位を2026年以降も維持することを示している。特に推論コスト削減はLLMサービス提供者にとってゲームチェンジャーとなる見込みだ。
Related Articles
NVIDIAがCES 2026で次世代AIプラットフォーム Vera Rubinを公開。MoEモデル学習に必要なGPUを4分の1に削減し、推論トークンコストを10倍削減。2026年下半期リリース予定。
HNがこのpostを面白がった理由は、Apple Silicon unified memoryでWasm sandboxとGPU bufferが本当に同じbytesを扱えるのかという実装上の境界だった。
NVIDIADCは2026年3月17日のX投稿で、Groq 3 LPXをVera Rubin platform向けのrack-scale low-latency inference acceleratorとして紹介した。NVIDIAの3月16日付press releaseとtechnical blogによれば、LPXは256基のLPU、128GBのon-chip SRAM、640 TB/sのscale-up bandwidthを備え、Vera Rubin NVL72と組み合わせてagentic AI向けのheterogeneous inference pathを形成する。
Comments (0)
No comments yet. Be the first to comment!