Skip to content

DynoSim, LLM serving 실험을 1,500배 빠른 simulation 문제로 전환

Original: DynoSim: Simulating the Pareto Frontier View original →

Read in other languages: English日本語
LLM May 30, 2026 By Insights AI 1 min read 1 views Source

LLM serving 최적화의 병목은 모델이 아니라 실험 비용이다. NVIDIA가 DynoSim을 공개하며 던진 메시지는 분명하다. tensor parallel shape, prefill/decode split, worker 수, router policy, KV cache, autoscaling을 실제 cluster에서 하나씩 시험하기 전에, workload trace 위에서 먼저 simulation으로 줄여 보자는 것이다.

DynoSim은 NVIDIA Dynamo serving stack의 workload-driven discrete-event simulation이다. 단순한 tokens-per-second 계산기가 아니라 Router, Planner, scheduler, KV cache behavior, workload trace를 하나의 virtual timeline 위에 올린다. NVIDIA는 Apple M4 MacBook Air에서 single-threaded Rust offline replay로 Mooncake trace 23,608개 request를 2.41초에 simulate했다고 밝혔다. 실제 serving window는 60.1분이었고, real time 대비 약 1,500배 빠른 셈이다.

숫자가 중요한 이유는 inference tuning의 탐색 공간 때문이다. 한 가지 local improvement가 다른 병목을 만들 수 있고, 큰 모델에서는 현실적인 실험 하나만으로도 여러 GPU나 node가 필요하다. DynoSim은 수천 개 deployment 후보를 먼저 거르고, 짧은 후보 목록만 실제 hardware에서 검증하는 흐름을 노린다. NVIDIA는 MiniMax-M2.5 FP8 on HGX B200 실험에서 KV-aware routing이 prefix reuse를 약 0.38에서 0.44~0.45로 올리고, TTFT를 낮추는 사례를 제시했다.

cache 계층도 simulation 대상이다. KVBM G2 host-memory tier를 켰을 때 prefill recompute가 줄고, concurrency 32 지점에서 mean TTFT가 19.3% 개선됐다는 결과가 나온다. autoscaling 실험에서는 Qwen3-32B at TP=2 on H200-SXM을 기준으로 Planner가 static deployment보다 낮은 p90 latency와 낮은 GPU-hours 조합을 찾았고, scaling interval은 5~10초 부근이 churn과 responsiveness 사이에서 균형점으로 나타났다.

이 접근은 agent traffic이 늘수록 더 중요해진다. multi-turn request, burst, cache reuse, cold start가 얽힌 serving system은 작은 unit test로는 충분히 설명되지 않는다. DynoSim이 production trace를 주기적으로 replay하고 더 나은 configuration을 추천하는 단계까지 간다면, LLM inference 운영은 한 번 launch한 설정을 오래 쓰는 방식에서 traffic 변화에 맞춰 계속 재조정하는 방식으로 바뀔 가능성이 크다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment