NVIDIA Blackwell Ultra, Agentic AI 추론 효율 대폭 개선 주장: 최대 50배 성능·35배 비용 절감
Original: New SemiAnalysis InferenceX Data Shows NVIDIA Blackwell Ultra Delivers up to 50x Better Performance and 35x Lower Costs for Agentic AI View original →
발표 내용
NVIDIA는 2026년 2월 16일 블로그를 통해, SemiAnalysis InferenceX 데이터를 인용하며 Blackwell Ultra 기반 GB300 NVL72가 Agentic AI 추론에서 큰 폭의 효율 개선을 보였다고 밝혔다. 핵심 수치는 Hopper 플랫폼 대비 최대 50배의 throughput-per-megawatt, 그리고 최대 35배의 비용 절감(토큰 단가 기준)이다.
회사 측은 최근 AI 질의에서 소프트웨어 개발 관련 워크로드 비중이 크게 늘고 있다고 설명했다. OpenRouter 보고서 기준으로 관련 질의 비중이 전년 11% 수준에서 약 50%까지 증가했다는 점을 근거로, 저지연과 장문맥을 동시에 요구하는 코딩 에이전트 수요가 급증하고 있다고 진단했다.
성능 개선의 근거로 제시된 요소
NVIDIA는 하드웨어뿐 아니라 소프트웨어 스택의 동시 최적화를 강조했다. TensorRT-LLM, Dynamo, Mooncake, SGLang 팀의 개선으로 Blackwell NVL72의 MoE 추론 성능이 꾸준히 상승했으며, 저지연 구간에서 GB200 성능이 4개월 전 대비 최대 5배 개선됐다고 밝혔다.
- GPU 커널 최적화: 저지연·고효율 처리 강화
- NVLink Symmetric Memory: GPU 간 메모리 접근 효율 개선
- Programmatic dependent launch: 커널 전환 유휴 시간 감소
또한 128,000 토큰 입력·8,000 토큰 출력 같은 장문맥 시나리오에서는 GB300 NVL72가 GB200 NVL72 대비 최대 1.5배 낮은 토큰 비용을 보였다고 제시했다. NVIDIA는 이를 코딩 어시스턴트·에이전트형 워크로드의 경제성 개선 신호로 해석했다.
배치 현황과 향후 로드맵
NVIDIA에 따르면 Microsoft, CoreWeave, Oracle Cloud Infrastructure(OCI)가 GB300 NVL72를 저지연·장문맥 추론 용도로 배치 중이다. Blackwell 배치 이후에도 소프트웨어 최적화로 추가 효율 향상을 이어가겠다는 계획이다.
차세대 Rubin 플랫폼에 대해서는 MoE 추론에서 Blackwell 대비 최대 10배 높은 throughput-per-megawatt, 대규모 MoE 학습 시 GPU 수를 4분의 1 수준으로 줄일 수 있다고 전망했다. 다만 해당 수치들은 NVIDIA가 제시한 벤치마크 및 파트너 사례 기반으로, 실제 운영 성능은 모델·트래픽·SLA 조건에 따라 달라질 수 있다.
기업 도입 관점에서는 모델 품질뿐 아니라 전력 효율, 지연시간, 토큰 원가를 함께 보는 조달 기준이 더 중요해질 것으로 보인다.
Related Articles
NVIDIA가 2026년 3월 1일, 통신사용 오픈 Nemotron 기반 30B Large Telco Model과 Agentic AI Blueprint를 발표했다. GSMA Open Telco AI 이니셔티브와 연계해 통신 운영 자동화의 실사용 단계를 앞당기겠다는 전략이다.
NVIDIA가 Blackwell의 후속인 Rubin 플랫폼을 CES 2026에서 공개하고 양산에 돌입했다. 6개 칩으로 구성된 이 플랫폼은 Blackwell 대비 1/10의 비용으로 AI 추론을 수행한다.
NVIDIA가 CES 2026에서 Vera Rubin 슈퍼칩과 Rubin CPX GPU를 발표했다. Rubin 플랫폼은 Blackwell 대비 MoE 훈련에 필요한 GPU 수를 4배 줄이고, 추론 토큰 비용을 10배 절감한다.
Comments (0)
No comments yet. Be the first to comment!