NVIDIA, Groq 3 LPX를 Vera Rubin용 low-latency inference rack으로 제시

Original: 🚀 Announced at #NVIDIAGTC: NVIDIA Groq 3 LPX, a new rack-scale low-latency inference accelerator for the #NVIDIAVeraRubin platform. Co-designed with Vera Rubin NVL72 — LPX accelerates token generation while Vera Rubin NVL72 powers large-scale training and inference. Together, https://t.co/l1tbGiBL2B View original →

Read in other languages: English日本語
AI Apr 2, 2026 By Insights AI 1 min read Source

X에서 무엇을 발표했나

2026년 3월 17일, NVIDIADC는 X에서 NVIDIA Groq 3 LPXVera Rubin platform용 새로운 rack-scale low-latency inference accelerator라고 소개했다. 게시물은 역할 분담도 명확히 적었다. LPX는 token generation을 가속하고, Vera Rubin NVL72는 대규모 training과 inference를 맡는다는 것이다. 짧은 문장이지만, 이는 NVIDIA가 차세대 AI infrastructure를 어떻게 쪼개어 설계하려는지 보여 준다.

핵심은 단순히 더 빠른 chip이 아니라, 서로 다른 inference 단계를 다른 하드웨어에 배치하는 heterogeneous serving architecture다. 즉 prefill과 대규모 범용 처리에는 Rubin GPU를 두고, latency-sensitive한 decode와 token generation에는 LPX를 붙이는 그림이다.

NVIDIA가 덧붙인 내용

NVIDIA Newsroom의 3월 16일 발표는 LPX를 agentic systems의 low-latency·large-context 요구를 겨냥한 구성으로 설명한다. NVIDIA에 따르면 LPX rack은 256개의 LPU, 128GB on-chip SRAM, 640 TB/s scale-up bandwidth를 갖고, Vera Rubin과 함께 최대 35배 높은 inference throughput per megawatt최대 10배의 revenue opportunity를 제시한다. 회사는 이 제품이 올해 하반기부터 차세대 Vera Rubin AI factory에 통합될 것이라고 밝혔다.

NVIDIA Technical Blog는 더 구체적인 수치를 제시한다. LPX는 315 PFLOPS FP8 compute를 제공하며, decode loop에서 FFNMoE expert execution 같은 latency-sensitive 구간을 담당하고, Rubin GPU는 prefill과 decode attention을 맡는다고 설명한다. 즉 NVIDIA는 agentic AI 시대의 inference 병목을 단일 GPU 세대 경쟁이 아니라 system architecture 문제로 다루고 있다.

왜 중요한가

이 발표가 고신호인 이유는 AI infrastructure 경쟁이 이제 training benchmark 경쟁을 넘어, interactive token generationagentic workload economics까지 전면에 두고 있기 때문이다. LPX는 “더 많은 FLOPS”보다, 긴 context와 빠른 응답성이 동시에 필요한 서비스 계층을 어떻게 상품화할지를 보여 주는 장치다.

물론 수치 상당수는 vendor가 제시한 forward-looking claim이다. 그럼에도 3월 17일 X 게시물과 3월 16일 NVIDIA 자료를 함께 보면, NVIDIA가 Vera Rubin 시대를 위해 training용 GPU clusterpremium low-latency inference tier를 분리해 설계하려 한다는 점은 분명하다. 이는 agentic coding, multi-agent system, real-time interaction 같은 workload가 인프라 설계의 중심으로 올라오고 있음을 보여 주는 중요한 신호다.

출처: NVIDIADC X 게시물 · NVIDIA Newsroom 발표 · NVIDIA Technical Blog

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.