DynoSim, LLM serving 실험을 1,500배 빠른 simulation 문제로 전환

LLM serving 최적화의 병목은 모델이 아니라 실험 비용이다. NVIDIA가 DynoSim을 공개하며 던진 메시지는 분명하다. tensor parallel shape, prefill/decode split, worker 수, router policy, KV cache, autoscaling을 실제 cluster에서 하나씩 시험하기 전에, workload trace 위에서 먼저 simulation으로 줄여 보자는 것이다.

DynoSim은 NVIDIA Dynamo serving stack의 workload-driven discrete-event simulation이다. 단순한 tokens-per-second 계산기가 아니라 Router, Planner, scheduler, KV cache behavior, workload trace를 하나의 virtual timeline 위에 올린다. NVIDIA는 Apple M4 MacBook Air에서 single-threaded Rust offline replay로 Mooncake trace 23,608개 request를 2.41초에 simulate했다고 밝혔다. 실제 serving window는 60.1분이었고, real time 대비 약 1,500배 빠른 셈이다.

숫자가 중요한 이유는 inference tuning의 탐색 공간 때문이다. 한 가지 local improvement가 다른 병목을 만들 수 있고, 큰 모델에서는 현실적인 실험 하나만으로도 여러 GPU나 node가 필요하다. DynoSim은 수천 개 deployment 후보를 먼저 거르고, 짧은 후보 목록만 실제 hardware에서 검증하는 흐름을 노린다. NVIDIA는 MiniMax-M2.5 FP8 on HGX B200 실험에서 KV-aware routing이 prefix reuse를 약 0.38에서 0.44~0.45로 올리고, TTFT를 낮추는 사례를 제시했다.

cache 계층도 simulation 대상이다. KVBM G2 host-memory tier를 켰을 때 prefill recompute가 줄고, concurrency 32 지점에서 mean TTFT가 19.3% 개선됐다는 결과가 나온다. autoscaling 실험에서는 Qwen3-32B at TP=2 on H200-SXM을 기준으로 Planner가 static deployment보다 낮은 p90 latency와 낮은 GPU-hours 조합을 찾았고, scaling interval은 5~10초 부근이 churn과 responsiveness 사이에서 균형점으로 나타났다.

이 접근은 agent traffic이 늘수록 더 중요해진다. multi-turn request, burst, cache reuse, cold start가 얽힌 serving system은 작은 unit test로는 충분히 설명되지 않는다. DynoSim이 production trace를 주기적으로 replay하고 더 나은 configuration을 추천하는 단계까지 간다면, LLM inference 운영은 한 번 launch한 설정을 오래 쓰는 방식에서 traffic 변화에 맞춰 계속 재조정하는 방식으로 바뀔 가능성이 크다.

DynoSim, LLM serving 실험을 1,500배 빠른 simulation 문제로 전환

Related Articles

DynoSim, 2.41초에 60.1분 추론 트래픽을 재현한 NVIDIA의 배치 탐색 방식

Nemotron-TwoTower 공개, autoregressive LLM을 diffusion으로 돌리는 실험

GLM-5.2를 느린 PC에서 돌리는 Colibri, Local AI의 병목은 GPU만이 아닌 이유