NVIDIA, Groq 3 LPX를 Vera Rubin용 low-latency inference rack으로 제시
Original: 🚀 Announced at #NVIDIAGTC: NVIDIA Groq 3 LPX, a new rack-scale low-latency inference accelerator for the #NVIDIAVeraRubin platform. Co-designed with Vera Rubin NVL72 — LPX accelerates token generation while Vera Rubin NVL72 powers large-scale training and inference. Together, https://t.co/l1tbGiBL2B View original →
X에서 무엇을 발표했나
2026년 3월 17일, NVIDIADC는 X에서 NVIDIA Groq 3 LPX를 Vera Rubin platform용 새로운 rack-scale low-latency inference accelerator라고 소개했다. 게시물은 역할 분담도 명확히 적었다. LPX는 token generation을 가속하고, Vera Rubin NVL72는 대규모 training과 inference를 맡는다는 것이다. 짧은 문장이지만, 이는 NVIDIA가 차세대 AI infrastructure를 어떻게 쪼개어 설계하려는지 보여 준다.
핵심은 단순히 더 빠른 chip이 아니라, 서로 다른 inference 단계를 다른 하드웨어에 배치하는 heterogeneous serving architecture다. 즉 prefill과 대규모 범용 처리에는 Rubin GPU를 두고, latency-sensitive한 decode와 token generation에는 LPX를 붙이는 그림이다.
NVIDIA가 덧붙인 내용
NVIDIA Newsroom의 3월 16일 발표는 LPX를 agentic systems의 low-latency·large-context 요구를 겨냥한 구성으로 설명한다. NVIDIA에 따르면 LPX rack은 256개의 LPU, 128GB on-chip SRAM, 640 TB/s scale-up bandwidth를 갖고, Vera Rubin과 함께 최대 35배 높은 inference throughput per megawatt와 최대 10배의 revenue opportunity를 제시한다. 회사는 이 제품이 올해 하반기부터 차세대 Vera Rubin AI factory에 통합될 것이라고 밝혔다.
NVIDIA Technical Blog는 더 구체적인 수치를 제시한다. LPX는 315 PFLOPS FP8 compute를 제공하며, decode loop에서 FFN과 MoE expert execution 같은 latency-sensitive 구간을 담당하고, Rubin GPU는 prefill과 decode attention을 맡는다고 설명한다. 즉 NVIDIA는 agentic AI 시대의 inference 병목을 단일 GPU 세대 경쟁이 아니라 system architecture 문제로 다루고 있다.
왜 중요한가
이 발표가 고신호인 이유는 AI infrastructure 경쟁이 이제 training benchmark 경쟁을 넘어, interactive token generation과 agentic workload economics까지 전면에 두고 있기 때문이다. LPX는 “더 많은 FLOPS”보다, 긴 context와 빠른 응답성이 동시에 필요한 서비스 계층을 어떻게 상품화할지를 보여 주는 장치다.
물론 수치 상당수는 vendor가 제시한 forward-looking claim이다. 그럼에도 3월 17일 X 게시물과 3월 16일 NVIDIA 자료를 함께 보면, NVIDIA가 Vera Rubin 시대를 위해 training용 GPU cluster와 premium low-latency inference tier를 분리해 설계하려 한다는 점은 분명하다. 이는 agentic coding, multi-agent system, real-time interaction 같은 workload가 인프라 설계의 중심으로 올라오고 있음을 보여 주는 중요한 신호다.
출처: NVIDIADC X 게시물 · NVIDIA Newsroom 발표 · NVIDIA Technical Blog
Related Articles
Thinking Machines Lab은 NVIDIA와 다년간 전략적 파트너십을 맺고 차세대 Vera Rubin 시스템을 최소 1GW 규모로 배치하겠다고 밝혔다. 양사는 training·serving 시스템 공동 설계와 함께 enterprise, research institution, scientific community로 frontier AI 및 open model 접근을 넓히는 계획도 제시했다.
NVIDIA와 Thinking Machines Lab은 2026년 3월 10일 최소 1 gigawatt 규모의 차세대 NVIDIA Vera Rubin 시스템을 배치하는 장기 파트너십을 발표했다. 양사는 training·serving system 공동 설계와 함께 NVIDIA의 전략적 투자도 포함한다고 밝혔다.
NVIDIA와 Emerald AI는 주요 energy 기업들과 함께 AI factory가 더 빠르게 grid에 연결되면서도 전력 시스템을 지원하는 flexible asset으로 동작하는 설계를 추진한다고 밝혔다. 발표에는 Vera Rubin DSX reference design, DSX Flex, Emerald Conductor가 핵심 구성으로 제시됐다.
Comments (0)
No comments yet. Be the first to comment!