NVIDIA·SGLang, DeepSeek R1 추론 성능 대폭 향상 주장
Original: NVIDIA and SGLang report 25x DeepSeek R1 inference gain on GB300 NVL72 versus H200 View original →
게시물에서 제시한 성능 수치
NVIDIA AI Developer는 2026년 3월 3일 X 게시물에서 SGLang과의 협업 결과를 공개했다. 핵심 주장에 따르면 DeepSeek R1 추론 처리량은 GB300 NVL72에서 H200 대비 최대 25배 향상됐고, GB200 NVL72 성능도 4개월 미만 기간에 8배 상승했다. 게시물은 동시에 대규모 MoE 워크로드에서 토큰당 비용 절감 효과도 강조한다.
개선 요인으로 언급된 기술 요소
게시물은 NVFP4 정밀도, NVIDIA Dynamo 기반 disaggregation, 그리고 연산-통신 오버랩 개선을 주요 기여 요인으로 제시한다. 함께 인용된 LMSYS 게시물도 같은 방향의 성능 개선을 InferenceXv2 맥락에서 설명한다. 이는 모델 자체 개선뿐 아니라 서빙 엔진·시스템 아키텍처 최적화가 실서비스 비용 구조를 크게 바꿀 수 있음을 시사한다.
해석 시 유의점
25배·8배 수치는 분명 강한 신호지만, 벤더·워크로드 조건에 따라 편차가 클 수 있다. 실제 체감 성능은 토큰 속도 목표, 입력/출력 길이 분포, 스케줄링 정책, 커널 성숙도에 영향을 받는다. 그럼에도 이번 공개는 하드웨어 세대 전환과 서빙 소프트웨어 기법을 함께 제시하며, 추론 인프라 투자 판단에 참고 가능한 구체 지표를 제공했다는 점에서 의미가 크다.
Sources: NVIDIA AI Developer X post, LMSYS quoted X post, LMSYS blog index
Related Articles
NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.
r/LocalLLaMA에서 주목받은 PSA는 Ollama나 LM Studio 같은 편의 레이어가 model behavior를 바꿀 수 있으므로, 새 모델 평가는 먼저 llama.cpp, transformers, vLLM, SGLang 같은 기본 런타임에서 해야 한다고 조언한다. 댓글에서도 핵심은 특정 툴 선호가 아니라 template, stop token, sampling, quantization을 고정한 재현성이라는 점이 강조됐다.
r/LocalLLaMA에서 주목받은 FlashAttention-4는 B200 BF16에서 최대 1605 TFLOPs/s를 제시하며, Blackwell의 메모리·SFU 병목을 겨냥한 파이프라인 개선을 소개했다.
Comments (0)
No comments yet. Be the first to comment!