NVIDIA Blackwell 기반 오픈소스 추론, 토큰 비용 최대 10배 절감 사례 공개

Original: Leading Inference Providers Cut AI Costs by up to 10x With Open Source Models on NVIDIA Blackwell View original →

Read in other languages: English日本語
LLM Feb 19, 2026 By Insights AI 2 min read 2 views Source

발표 배경: 토큰 경제성(tokenomics)

NVIDIA는 2026년 2월 12일 블로그에서, 오픈소스 frontier 모델과 Blackwell 추론 스택 조합이 cost per token을 크게 낮추고 있다고 주장했다. 글은 AI 서비스 확장의 핵심 제약을 토큰 단가로 정의하며, 성능 향상만큼 단위 비용 하락이 중요하다고 설명한다. 또한 MIT 연구를 인용해, frontier급 성능 기준 추론 비용이 인프라 및 알고리즘 효율화로 연간 최대 10배까지 낮아질 수 있다고 소개했다.

NVIDIA가 제시한 핵심 메시지는 하드웨어·소프트웨어 공동 최적화다. Baseten, DeepInfra, Fireworks AI, Together AI 같은 추론 사업자가 Blackwell 기반으로 운영하면서 Hopper 대비 토큰 비용을 최대 10배까지 절감했다고 발표문은 밝힌다. 다만 수치는 모두 각 기업이 공개한 벤치마크/운영 지표에 기반한 공급자 측 주장이라는 점을 함께 확인할 필요가 있다.

사례 1: 의료 업무 자동화

Sully.ai 사례에서 Baseten은 Blackwell, TensorRT-LLM, NVFP4, NVIDIA Dynamo 기반 최적화를 적용했고, Hopper 대비 throughput per dollar가 최대 2.5배 개선됐다고 설명했다. 그 결과 Sully.ai의 추론 비용은 기존 closed source 구현 대비 90% 하락(10x 절감), 핵심 워크플로 응답시간은 65% 개선됐다고 게시됐다. 또한 누적 3천만 분 이상의 임상 행정 시간을 의사에게 되돌렸다는 운영 성과가 포함됐다.

사례 2: 대규모 MoE와 실시간 상호작용

DeepInfra 사례에서는 대규모 MoE 모델의 cost per million tokens가 Hopper에서 20 cents, Blackwell에서 10 cents, NVFP4 적용 후 5 cents로 낮아졌다고 제시됐다. 이는 동일 정확도 유지 조건에서 토큰 비용 4배 개선이라는 주장이다. Fireworks AI와 Sentient 사례에서는 Blackwell 최적화 후 비용 효율이 25~50% 개선됐고, 출시 초기에 24시간 내 1.8 million 대기자, 1주 5.6 million 질의를 처리했다고 설명한다.

Together AI와 Decagon 사례에서는 음성 중심 agent 워크로드에서 query당 비용이 closed source 대비 6배 낮아지고, 수천 토큰 처리에서도 400ms 미만 응답시간을 달성했다고 발표됐다.

전망과 해석

NVIDIA는 GB200 NVL72가 reasoning MoE 모델에서 Hopper 대비 cost per token 10배 절감을 제공한다고 주장하며, 차세대 Rubin 플랫폼에서는 Blackwell 대비 10배 성능과 10배 낮은 토큰 비용 목표를 제시했다. 산업 관점에서 의미는 분명하다. 모델 성능 경쟁이 비용·지연시간·처리량 경쟁으로 이동하면서, 추론 인프라 사업자의 차별화 포인트가 token economics로 수렴하고 있다는 신호다.

향후 검증 포인트는 벤더별 측정 조건의 통일성이다. 동일 모델, 동일 latency target, 동일 품질 기준에서 비용 수치를 교차 비교할 수 있어야 실제 경제성을 평가할 수 있다.

Source: NVIDIA announcement
Reference: MIT research cited by NVIDIA

Share:

Related Articles

LLM sources.twitter 1d ago 1 min read

NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.

LLM Reddit 6d ago 2 min read

r/LocalLLaMA에서 주목받은 PSA는 Ollama나 LM Studio 같은 편의 레이어가 model behavior를 바꿀 수 있으므로, 새 모델 평가는 먼저 llama.cpp, transformers, vLLM, SGLang 같은 기본 런타임에서 해야 한다고 조언한다. 댓글에서도 핵심은 특정 툴 선호가 아니라 template, stop token, sampling, quantization을 고정한 재현성이라는 점이 강조됐다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.