NVIDIA、Groq 3 LPXをVera Rubin向けlow-latency inference rackとして提示

Original: 🚀 Announced at #NVIDIAGTC: NVIDIA Groq 3 LPX, a new rack-scale low-latency inference accelerator for the #NVIDIAVeraRubin platform. Co-designed with Vera Rubin NVL72 — LPX accelerates token generation while Vera Rubin NVL72 powers large-scale training and inference. Together, https://t.co/l1tbGiBL2B View original →

Read in other languages: 한국어English
AI Apr 2, 2026 By Insights AI 1 min read Source

Xで何を発表したか

2026年3月17日NVIDIADCNVIDIA Groq 3 LPXVera Rubin platform向けの新しいrack-scale low-latency inference acceleratorとして紹介した。投稿は役割分担も明確にしている。LPXはtoken generationを加速し、Vera Rubin NVL72は大規模trainingとinferenceを担うというものだ。これは単なるproduct copyではなく、NVIDIAが次世代AI factoryの処理分担をどう考えているかを示している。

重要なのは、より速い単体chipの話ではなく、heterogeneous serving architectureの話だという点だ。Rubin GPUは幅広いthroughput重視の処理を担い、LPXはinteractive generationの中でもlatency-sensitiveな部分に最適化される。

NVIDIAが補足した点

3月16日のNVIDIA Newsroom発表によれば、LPXはagentic systemsのlow-latencyかつlarge-contextな要求に向けて設計されている。NVIDIAは、LPX rackが256基のLPU128GBのon-chip SRAM640 TB/sのscale-up bandwidthを備え、Vera Rubinとの組み合わせで最大35倍のinference throughput per megawatt最大10倍のrevenue opportunityを実現すると説明している。提供開始は2026年後半の予定だという。

NVIDIA Technical Blogはさらに具体的で、rack scaleで315 PFLOPS FP8を示し、LPXがFFNMoE expert executionなどdecode loopのlatency-sensitiveな部分を担当し、Rubin GPUがprefillとdecode attentionを担当すると説明している。つまりNVIDIAは、次の推論ボトルネックを単なるGPU世代競争ではなくsystem architectureの問題として扱っている。

なぜ重要か

この発表が高シグナルなのは、AI infrastructure競争がtraining benchmarkや単純なaccelerator数の争いを超え、interactive token generationの経済性へ移っているからだ。agentic systemsはより多くのtokenを消費し、より短いtool loopを回し、予測可能なlatencyにより大きな価値を置く。LPXはその領域向けのpremium rack tierを定義しようとする試みと言える。

もちろん、性能や収益性の数値の多くはvendorによるforward-lookingな主張だ。それでも、3月17日のX投稿と3月16日のNVIDIA資料を合わせて読むと、NVIDIAが単に大きなtraining platformを売ろうとしているのではなく、training-scale throughputultra-low-latency inferenceを同じAI factoryの中で分離しつつco-designしようとしていることは明確だ。これはagentic coding、multi-agent system、real-time AI productを作る側にとって重要な方向転換だ。

出典: NVIDIADC X投稿 · NVIDIA Newsroom発表 · NVIDIA Technical Blog

Share: Long

Related Articles

AI 6d ago 1 min read

Thinking Machines LabはNVIDIAと複数年の戦略提携を結び、次世代Vera Rubin systemsを少なくとも1GW規模で導入すると発表した。両社はtraining・serving systemの共同設計に加え、enterprise、research institution、scientific community向けにfrontier AIとopen modelへのアクセス拡大も進めるとしている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.