NVIDIA·SGLang, DeepSeek R1 추론 성능 대폭 향상 주장
Original: NVIDIA and SGLang report 25x DeepSeek R1 inference gain on GB300 NVL72 versus H200 View original →
게시물에서 제시한 성능 수치
NVIDIA AI Developer는 2026년 3월 3일 X 게시물에서 SGLang과의 협업 결과를 공개했다. 핵심 주장에 따르면 DeepSeek R1 추론 처리량은 GB300 NVL72에서 H200 대비 최대 25배 향상됐고, GB200 NVL72 성능도 4개월 미만 기간에 8배 상승했다. 게시물은 동시에 대규모 MoE 워크로드에서 토큰당 비용 절감 효과도 강조한다.
개선 요인으로 언급된 기술 요소
게시물은 NVFP4 정밀도, NVIDIA Dynamo 기반 disaggregation, 그리고 연산-통신 오버랩 개선을 주요 기여 요인으로 제시한다. 함께 인용된 LMSYS 게시물도 같은 방향의 성능 개선을 InferenceXv2 맥락에서 설명한다. 이는 모델 자체 개선뿐 아니라 서빙 엔진·시스템 아키텍처 최적화가 실서비스 비용 구조를 크게 바꿀 수 있음을 시사한다.
해석 시 유의점
25배·8배 수치는 분명 강한 신호지만, 벤더·워크로드 조건에 따라 편차가 클 수 있다. 실제 체감 성능은 토큰 속도 목표, 입력/출력 길이 분포, 스케줄링 정책, 커널 성숙도에 영향을 받는다. 그럼에도 이번 공개는 하드웨어 세대 전환과 서빙 소프트웨어 기법을 함께 제시하며, 추론 인프라 투자 판단에 참고 가능한 구체 지표를 제공했다는 점에서 의미가 크다.
Sources: NVIDIA AI Developer X post, LMSYS quoted X post, LMSYS blog index
Related Articles
LLM inference 운영에서 비싼 GPU 실험을 먼저 돌릴 필요가 줄어든다. NVIDIA DynoSim은 23,608개 request trace를 Apple M4 MacBook Air에서 2.41초에 재생하며 real time 대비 약 1,500배 빠른 serving simulation을 제시했다.
NVIDIA가 Dynamo serving stack을 빠르게 실험하는 DynoSim을 공개했다. 기술 블로그 기준 Apple M4 MacBook Air에서 23,608개 요청, 60.1분 분량 트래픽을 2.41초에 재현해 약 1,500배 빠른 시뮬레이션을 보였다.
오픈 모델 경쟁이 단순 성능표에서 장시간 에이전트 비용으로 이동하고 있다. NVIDIA는 Nemotron 3 Ultra가 550B MoE 구조로 5배 빠른 추론과 최대 30% 낮은 복잡 작업 비용을 낸다고 밝혔다.