NVIDIA、Groq 3 LPXをVera Rubin向けlow-latency inference rackとして提示
Original: 🚀 Announced at #NVIDIAGTC: NVIDIA Groq 3 LPX, a new rack-scale low-latency inference accelerator for the #NVIDIAVeraRubin platform. Co-designed with Vera Rubin NVL72 — LPX accelerates token generation while Vera Rubin NVL72 powers large-scale training and inference. Together, https://t.co/l1tbGiBL2B View original →
Xで何を発表したか
2026年3月17日、NVIDIADCはNVIDIA Groq 3 LPXをVera Rubin platform向けの新しいrack-scale low-latency inference acceleratorとして紹介した。投稿は役割分担も明確にしている。LPXはtoken generationを加速し、Vera Rubin NVL72は大規模trainingとinferenceを担うというものだ。これは単なるproduct copyではなく、NVIDIAが次世代AI factoryの処理分担をどう考えているかを示している。
重要なのは、より速い単体chipの話ではなく、heterogeneous serving architectureの話だという点だ。Rubin GPUは幅広いthroughput重視の処理を担い、LPXはinteractive generationの中でもlatency-sensitiveな部分に最適化される。
NVIDIAが補足した点
3月16日のNVIDIA Newsroom発表によれば、LPXはagentic systemsのlow-latencyかつlarge-contextな要求に向けて設計されている。NVIDIAは、LPX rackが256基のLPU、128GBのon-chip SRAM、640 TB/sのscale-up bandwidthを備え、Vera Rubinとの組み合わせで最大35倍のinference throughput per megawattと最大10倍のrevenue opportunityを実現すると説明している。提供開始は2026年後半の予定だという。
NVIDIA Technical Blogはさらに具体的で、rack scaleで315 PFLOPS FP8を示し、LPXがFFNやMoE expert executionなどdecode loopのlatency-sensitiveな部分を担当し、Rubin GPUがprefillとdecode attentionを担当すると説明している。つまりNVIDIAは、次の推論ボトルネックを単なるGPU世代競争ではなくsystem architectureの問題として扱っている。
なぜ重要か
この発表が高シグナルなのは、AI infrastructure競争がtraining benchmarkや単純なaccelerator数の争いを超え、interactive token generationの経済性へ移っているからだ。agentic systemsはより多くのtokenを消費し、より短いtool loopを回し、予測可能なlatencyにより大きな価値を置く。LPXはその領域向けのpremium rack tierを定義しようとする試みと言える。
もちろん、性能や収益性の数値の多くはvendorによるforward-lookingな主張だ。それでも、3月17日のX投稿と3月16日のNVIDIA資料を合わせて読むと、NVIDIAが単に大きなtraining platformを売ろうとしているのではなく、training-scale throughputとultra-low-latency inferenceを同じAI factoryの中で分離しつつco-designしようとしていることは明確だ。これはagentic coding、multi-agent system、real-time AI productを作る側にとって重要な方向転換だ。
出典: NVIDIADC X投稿 · NVIDIA Newsroom発表 · NVIDIA Technical Blog
Related Articles
NVIDIAとThinking Machines Labは2026年3月10日、次世代 NVIDIA Vera Rubin system を少なくとも1 gigawatt規模で導入する長期提携を発表した。training・serving system の共同設計に加え、NVIDIAによる strategic investment も含まれる。
Thinking Machines LabはNVIDIAと複数年の戦略提携を結び、次世代Vera Rubin systemsを少なくとも1GW規模で導入すると発表した。両社はtraining・serving systemの共同設計に加え、enterprise、research institution、scientific community向けにfrontier AIとopen modelへのアクセス拡大も進めるとしている。
議論の焦点は、AIラック向けHBM需要が日常的な端末のDDR・LPDDR供給を圧迫する具体的な経路にあった。
Comments (0)
No comments yet. Be the first to comment!