NVIDIA·SGLang, DeepSeek R1 추론 성능 대폭 향상 주장

게시물에서 제시한 성능 수치

NVIDIA AI Developer는 2026년 3월 3일 X 게시물에서 SGLang과의 협업 결과를 공개했다. 핵심 주장에 따르면 DeepSeek R1 추론 처리량은 GB300 NVL72에서 H200 대비 최대 25배 향상됐고, GB200 NVL72 성능도 4개월 미만 기간에 8배 상승했다. 게시물은 동시에 대규모 MoE 워크로드에서 토큰당 비용 절감 효과도 강조한다.

개선 요인으로 언급된 기술 요소

게시물은 NVFP4 정밀도, NVIDIA Dynamo 기반 disaggregation, 그리고 연산-통신 오버랩 개선을 주요 기여 요인으로 제시한다. 함께 인용된 LMSYS 게시물도 같은 방향의 성능 개선을 InferenceXv2 맥락에서 설명한다. 이는 모델 자체 개선뿐 아니라 서빙 엔진·시스템 아키텍처 최적화가 실서비스 비용 구조를 크게 바꿀 수 있음을 시사한다.

해석 시 유의점

25배·8배 수치는 분명 강한 신호지만, 벤더·워크로드 조건에 따라 편차가 클 수 있다. 실제 체감 성능은 토큰 속도 목표, 입력/출력 길이 분포, 스케줄링 정책, 커널 성숙도에 영향을 받는다. 그럼에도 이번 공개는 하드웨어 세대 전환과 서빙 소프트웨어 기법을 함께 제시하며, 추론 인프라 투자 판단에 참고 가능한 구체 지표를 제공했다는 점에서 의미가 크다.

Sources: NVIDIA AI Developer X post, LMSYS quoted X post, LMSYS blog index

LLM Mar 30, 2026 1 min read

NVIDIA, Dynamo 1.0으로 AI factory inference OS 상용 단계 진입

NVIDIA는 2026년 3월 16일 Dynamo 1.0을 공개하며 generative·agentic inference용 open-source 운영 계층을 본격 상용 단계로 끌어올렸다. 핵심은 Blackwell 성능 증폭, token cost 절감, open-source framework 통합을 한 번에 묶었다는 점이다.

#nvidia #dynamo #inference

LLM Reddit Mar 28, 2026 2 min read

LocalLLaMA가 본 NVIDIA gpt-oss-puzzle-88B, gpt-oss-120b를 더 싸게 서빙하려는 88B 재설계

2026년 3월 26일 NVIDIA의 `gpt-oss-puzzle-88B` 모델 카드를 링크한 r/LocalLLaMA 글은 크롤링 시점 기준 284 points와 105 comments를 기록했다. NVIDIA는 이 88B MoE 모델이 Puzzle post-training NAS 파이프라인으로 파라미터와 KV-cache 부담을 줄이면서도 reasoning 정확도를 부모 모델 수준으로 유지하거나 소폭 높인다고 설명한다.

#nvidia #gpt-oss #open-weights

LLM Reddit Apr 7, 2026 1 min read

LocalLLaMA, DFlash를 더 빠른 speculative decoding을 위한 오픈소스 경로로 주목

LocalLLaMA 스레드는 speculative decoding용 block-diffusion draft model인 DFlash에 관심을 모았다. 논문은 6x 이상의 lossless acceleration과 vLLM, SGLang, 일부 Transformers backend 지원을 내세운다.

#speculative-decoding #inference #vllm