NVIDIA、Groq 3 LPXをVera Rubin向けlow-latency inference rackとして提示
Original: 🚀 Announced at #NVIDIAGTC: NVIDIA Groq 3 LPX, a new rack-scale low-latency inference accelerator for the #NVIDIAVeraRubin platform. Co-designed with Vera Rubin NVL72 — LPX accelerates token generation while Vera Rubin NVL72 powers large-scale training and inference. Together, https://t.co/l1tbGiBL2B View original →
Xで何を発表したか
2026年3月17日、NVIDIADCはNVIDIA Groq 3 LPXをVera Rubin platform向けの新しいrack-scale low-latency inference acceleratorとして紹介した。投稿は役割分担も明確にしている。LPXはtoken generationを加速し、Vera Rubin NVL72は大規模trainingとinferenceを担うというものだ。これは単なるproduct copyではなく、NVIDIAが次世代AI factoryの処理分担をどう考えているかを示している。
重要なのは、より速い単体chipの話ではなく、heterogeneous serving architectureの話だという点だ。Rubin GPUは幅広いthroughput重視の処理を担い、LPXはinteractive generationの中でもlatency-sensitiveな部分に最適化される。
NVIDIAが補足した点
3月16日のNVIDIA Newsroom発表によれば、LPXはagentic systemsのlow-latencyかつlarge-contextな要求に向けて設計されている。NVIDIAは、LPX rackが256基のLPU、128GBのon-chip SRAM、640 TB/sのscale-up bandwidthを備え、Vera Rubinとの組み合わせで最大35倍のinference throughput per megawattと最大10倍のrevenue opportunityを実現すると説明している。提供開始は2026年後半の予定だという。
NVIDIA Technical Blogはさらに具体的で、rack scaleで315 PFLOPS FP8を示し、LPXがFFNやMoE expert executionなどdecode loopのlatency-sensitiveな部分を担当し、Rubin GPUがprefillとdecode attentionを担当すると説明している。つまりNVIDIAは、次の推論ボトルネックを単なるGPU世代競争ではなくsystem architectureの問題として扱っている。
なぜ重要か
この発表が高シグナルなのは、AI infrastructure競争がtraining benchmarkや単純なaccelerator数の争いを超え、interactive token generationの経済性へ移っているからだ。agentic systemsはより多くのtokenを消費し、より短いtool loopを回し、予測可能なlatencyにより大きな価値を置く。LPXはその領域向けのpremium rack tierを定義しようとする試みと言える。
もちろん、性能や収益性の数値の多くはvendorによるforward-lookingな主張だ。それでも、3月17日のX投稿と3月16日のNVIDIA資料を合わせて読むと、NVIDIAが単に大きなtraining platformを売ろうとしているのではなく、training-scale throughputとultra-low-latency inferenceを同じAI factoryの中で分離しつつco-designしようとしていることは明確だ。これはagentic coding、multi-agent system、real-time AI productを作る側にとって重要な方向転換だ。
出典: NVIDIADC X投稿 · NVIDIA Newsroom発表 · NVIDIA Technical Blog
Related Articles
Thinking Machines LabはNVIDIAと複数年の戦略提携を結び、次世代Vera Rubin systemsを少なくとも1GW規模で導入すると発表した。両社はtraining・serving systemの共同設計に加え、enterprise、research institution、scientific community向けにfrontier AIとopen modelへのアクセス拡大も進めるとしている。
NVIDIAとThinking Machines Labは2026年3月10日、次世代 NVIDIA Vera Rubin system を少なくとも1 gigawatt規模で導入する長期提携を発表した。training・serving system の共同設計に加え、NVIDIAによる strategic investment も含まれる。
NVIDIAとEmerald AIは、主要energy企業と連携し、AI factoryをより速くgrid接続しつつ、電力系統も支えるflexible assetとして運用する設計を打ち出した。Vera Rubin DSX、DSX Flex、Emerald Conductorが中核になる。
Comments (0)
No comments yet. Be the first to comment!