DynoSim, 2.41초에 60.1분 추론 트래픽을 재현한 NVIDIA의 배치 탐색 방식

LLM 서빙 최적화는 더 이상 GPU를 더 붙이는 문제만이 아니다. NVIDIA가 2026년 5월 30일 소개한 DynoSim은 Dynamo serving stack의 배치 선택을 실제 하드웨어 실험 전에 가상 시간에서 걸러내는 도구다. 트윗은 수천 개 설정을 고정밀 시뮬레이션으로 먼저 선별하고, 가장 좋은 후보만 실제 하드웨어에서 검증하는 “simulate-then-verify” 흐름을 강조했다.

“1,500x faster than real time.”

NVIDIA 기술 블로그는 더 구체적이다. DynoSim은 workload-driven discrete-event simulation으로, Router, Planner, scheduler core, KV cache 영향, workload trace를 하나의 virtual timeline 위에 둔다. 블로그에 따르면 Apple M4 MacBook Air에서 single-threaded Rust offline replay가 23,608-request Mooncake trace와 60.1분 serving window를 2.41초에 재현했다. 이는 실제 시간보다 약 1,500배 빠른 수치다.

NVIDIAAI 계정은 GPU, inference, agentic AI infrastructure 관련 개발자 업데이트를 자주 다룬다. 이번 글의 의미는 모델 자체가 아니라 배포 운영의 병목을 겨냥한다는 데 있다. 대형 모델 서빙에서는 tensor parallelism, prefill/decode 분리, worker 수, routing policy, KV cache, autoscaling 기준이 서로 얽힌다. 하나의 개선이 다른 계층의 병목을 만들 수 있기 때문에, 실제 클러스터에서 모든 조합을 테스트하는 방식은 비용이 크다.

다음 관전점은 DynoSim이 공개 사용자에게 어느 수준까지 제공되고, Dynamo 외 스택에도 같은 충실도를 낼 수 있는지다. 서빙 시뮬레이터가 운영팀의 표준 도구가 되려면 속도뿐 아니라 실제 지연시간, 처리량, 비용과의 오차가 작아야 한다. source tweet

DynoSim, 2.41초에 60.1분 추론 트래픽을 재현한 NVIDIA의 배치 탐색 방식

Related Articles

NVIDIA, Dynamo 1.0으로 AI factory inference OS 상용 단계 진입

DynoSim, LLM serving 실험을 1,500배 빠른 simulation 문제로 전환

Nemotron-TwoTower 공개, autoregressive LLM을 diffusion으로 돌리는 실험

Related Articles

NVIDIA, Dynamo 1.0으로 AI factory inference OS 상용 단계 진입
LLM Mar 30, 2026 1 min read

DynoSim, LLM serving 실험을 1,500배 빠른 simulation 문제로 전환
LLM May 30, 2026 1 min read

Nemotron-TwoTower 공개, autoregressive LLM을 diffusion으로 돌리는 실험
LLM Reddit Jun 26, 2026 1 min read