NVIDIA Blackwell 기반 오픈소스 추론, 토큰 비용 최대 10배 절감 사례 공개
Original: Leading Inference Providers Cut AI Costs by up to 10x With Open Source Models on NVIDIA Blackwell View original →
발표 배경: 토큰 경제성(tokenomics)
NVIDIA는 2026년 2월 12일 블로그에서, 오픈소스 frontier 모델과 Blackwell 추론 스택 조합이 cost per token을 크게 낮추고 있다고 주장했다. 글은 AI 서비스 확장의 핵심 제약을 토큰 단가로 정의하며, 성능 향상만큼 단위 비용 하락이 중요하다고 설명한다. 또한 MIT 연구를 인용해, frontier급 성능 기준 추론 비용이 인프라 및 알고리즘 효율화로 연간 최대 10배까지 낮아질 수 있다고 소개했다.
NVIDIA가 제시한 핵심 메시지는 하드웨어·소프트웨어 공동 최적화다. Baseten, DeepInfra, Fireworks AI, Together AI 같은 추론 사업자가 Blackwell 기반으로 운영하면서 Hopper 대비 토큰 비용을 최대 10배까지 절감했다고 발표문은 밝힌다. 다만 수치는 모두 각 기업이 공개한 벤치마크/운영 지표에 기반한 공급자 측 주장이라는 점을 함께 확인할 필요가 있다.
사례 1: 의료 업무 자동화
Sully.ai 사례에서 Baseten은 Blackwell, TensorRT-LLM, NVFP4, NVIDIA Dynamo 기반 최적화를 적용했고, Hopper 대비 throughput per dollar가 최대 2.5배 개선됐다고 설명했다. 그 결과 Sully.ai의 추론 비용은 기존 closed source 구현 대비 90% 하락(10x 절감), 핵심 워크플로 응답시간은 65% 개선됐다고 게시됐다. 또한 누적 3천만 분 이상의 임상 행정 시간을 의사에게 되돌렸다는 운영 성과가 포함됐다.
사례 2: 대규모 MoE와 실시간 상호작용
DeepInfra 사례에서는 대규모 MoE 모델의 cost per million tokens가 Hopper에서 20 cents, Blackwell에서 10 cents, NVFP4 적용 후 5 cents로 낮아졌다고 제시됐다. 이는 동일 정확도 유지 조건에서 토큰 비용 4배 개선이라는 주장이다. Fireworks AI와 Sentient 사례에서는 Blackwell 최적화 후 비용 효율이 25~50% 개선됐고, 출시 초기에 24시간 내 1.8 million 대기자, 1주 5.6 million 질의를 처리했다고 설명한다.
Together AI와 Decagon 사례에서는 음성 중심 agent 워크로드에서 query당 비용이 closed source 대비 6배 낮아지고, 수천 토큰 처리에서도 400ms 미만 응답시간을 달성했다고 발표됐다.
전망과 해석
NVIDIA는 GB200 NVL72가 reasoning MoE 모델에서 Hopper 대비 cost per token 10배 절감을 제공한다고 주장하며, 차세대 Rubin 플랫폼에서는 Blackwell 대비 10배 성능과 10배 낮은 토큰 비용 목표를 제시했다. 산업 관점에서 의미는 분명하다. 모델 성능 경쟁이 비용·지연시간·처리량 경쟁으로 이동하면서, 추론 인프라 사업자의 차별화 포인트가 token economics로 수렴하고 있다는 신호다.
향후 검증 포인트는 벤더별 측정 조건의 통일성이다. 동일 모델, 동일 latency target, 동일 품질 기준에서 비용 수치를 교차 비교할 수 있어야 실제 경제성을 평가할 수 있다.
Source: NVIDIA announcement
Reference: MIT research cited by NVIDIA
Related Articles
NVIDIA는 2026년 3월 16일 Dynamo 1.0을 공개하며 generative·agentic inference용 open-source 운영 계층을 본격 상용 단계로 끌어올렸다. 핵심은 Blackwell 성능 증폭, token cost 절감, open-source framework 통합을 한 번에 묶었다는 점이다.
Orthrus 프레임워크가 Qwen3 모델에서 forward pass당 최대 7.8배 토큰 생성 속도를 달성했다. 단일 KV 캐시로 자동회귀와 확산 뷰를 통합하는 이중 뷰 아키텍처 덕분에 출력 분포는 원본과 동일하다.
LLM inference 운영에서 비싼 GPU 실험을 먼저 돌릴 필요가 줄어든다. NVIDIA DynoSim은 23,608개 request trace를 Apple M4 MacBook Air에서 2.41초에 재생하며 real time 대비 약 1,500배 빠른 serving simulation을 제시했다.