NVIDIA Blackwell Ultra, Agentic AI 추론 효율 대폭 개선 주장: 최대 50배 성능·35배 비용 절감

발표 내용

NVIDIA는 2026년 2월 16일 블로그를 통해, SemiAnalysis InferenceX 데이터를 인용하며 Blackwell Ultra 기반 GB300 NVL72가 Agentic AI 추론에서 큰 폭의 효율 개선을 보였다고 밝혔다. 핵심 수치는 Hopper 플랫폼 대비 최대 50배의 throughput-per-megawatt, 그리고 최대 35배의 비용 절감(토큰 단가 기준)이다.

회사 측은 최근 AI 질의에서 소프트웨어 개발 관련 워크로드 비중이 크게 늘고 있다고 설명했다. OpenRouter 보고서 기준으로 관련 질의 비중이 전년 11% 수준에서 약 50%까지 증가했다는 점을 근거로, 저지연과 장문맥을 동시에 요구하는 코딩 에이전트 수요가 급증하고 있다고 진단했다.

성능 개선의 근거로 제시된 요소

NVIDIA는 하드웨어뿐 아니라 소프트웨어 스택의 동시 최적화를 강조했다. TensorRT-LLM, Dynamo, Mooncake, SGLang 팀의 개선으로 Blackwell NVL72의 MoE 추론 성능이 꾸준히 상승했으며, 저지연 구간에서 GB200 성능이 4개월 전 대비 최대 5배 개선됐다고 밝혔다.

GPU 커널 최적화: 저지연·고효율 처리 강화
NVLink Symmetric Memory: GPU 간 메모리 접근 효율 개선
Programmatic dependent launch: 커널 전환 유휴 시간 감소

또한 128,000 토큰 입력·8,000 토큰 출력 같은 장문맥 시나리오에서는 GB300 NVL72가 GB200 NVL72 대비 최대 1.5배 낮은 토큰 비용을 보였다고 제시했다. NVIDIA는 이를 코딩 어시스턴트·에이전트형 워크로드의 경제성 개선 신호로 해석했다.

배치 현황과 향후 로드맵

NVIDIA에 따르면 Microsoft, CoreWeave, Oracle Cloud Infrastructure(OCI)가 GB300 NVL72를 저지연·장문맥 추론 용도로 배치 중이다. Blackwell 배치 이후에도 소프트웨어 최적화로 추가 효율 향상을 이어가겠다는 계획이다.

차세대 Rubin 플랫폼에 대해서는 MoE 추론에서 Blackwell 대비 최대 10배 높은 throughput-per-megawatt, 대규모 MoE 학습 시 GPU 수를 4분의 1 수준으로 줄일 수 있다고 전망했다. 다만 해당 수치들은 NVIDIA가 제시한 벤치마크 및 파트너 사례 기반으로, 실제 운영 성능은 모델·트래픽·SLA 조건에 따라 달라질 수 있다.

기업 도입 관점에서는 모델 품질뿐 아니라 전력 효율, 지연시간, 토큰 원가를 함께 보는 조달 기준이 더 중요해질 것으로 보인다.

NVIDIA Blackwell Ultra, Agentic AI 추론 효율 대폭 개선 주장: 최대 50배 성능·35배 비용 절감

발표 내용

성능 개선의 근거로 제시된 요소

배치 현황과 향후 로드맵

Related Articles

NVIDIA, Groq 3 LPX를 Vera Rubin용 low-latency inference rack으로 제시

NVIDIA, Dynamo 1.0를 AI factories용 inference OS로 production 단계에 투입

Wasm에서 GPU로 zero-copy inference, HN은 “어디서 빨라지나”를 물었다

Comments (0)

Leave a Comment

Related Articles

NVIDIA, Groq 3 LPX를 Vera Rubin용 low-latency inference rack으로 제시
AI sources.twitter Apr 2, 2026 1 min read

NVIDIA, Dynamo 1.0를 AI factories용 inference OS로 production 단계에 투입
AI sources.twitter Mar 17, 2026 2 min read

Wasm에서 GPU로 zero-copy inference, HN은 “어디서 빨라지나”를 물었다
AI Hacker News Apr 20, 2026 1 min read