DynoSim, LLM serving 실험을 1,500배 빠른 simulation 문제로 전환
Original: DynoSim: Simulating the Pareto Frontier View original →
LLM serving 최적화의 병목은 모델이 아니라 실험 비용이다. NVIDIA가 DynoSim을 공개하며 던진 메시지는 분명하다. tensor parallel shape, prefill/decode split, worker 수, router policy, KV cache, autoscaling을 실제 cluster에서 하나씩 시험하기 전에, workload trace 위에서 먼저 simulation으로 줄여 보자는 것이다.
DynoSim은 NVIDIA Dynamo serving stack의 workload-driven discrete-event simulation이다. 단순한 tokens-per-second 계산기가 아니라 Router, Planner, scheduler, KV cache behavior, workload trace를 하나의 virtual timeline 위에 올린다. NVIDIA는 Apple M4 MacBook Air에서 single-threaded Rust offline replay로 Mooncake trace 23,608개 request를 2.41초에 simulate했다고 밝혔다. 실제 serving window는 60.1분이었고, real time 대비 약 1,500배 빠른 셈이다.
숫자가 중요한 이유는 inference tuning의 탐색 공간 때문이다. 한 가지 local improvement가 다른 병목을 만들 수 있고, 큰 모델에서는 현실적인 실험 하나만으로도 여러 GPU나 node가 필요하다. DynoSim은 수천 개 deployment 후보를 먼저 거르고, 짧은 후보 목록만 실제 hardware에서 검증하는 흐름을 노린다. NVIDIA는 MiniMax-M2.5 FP8 on HGX B200 실험에서 KV-aware routing이 prefix reuse를 약 0.38에서 0.44~0.45로 올리고, TTFT를 낮추는 사례를 제시했다.
cache 계층도 simulation 대상이다. KVBM G2 host-memory tier를 켰을 때 prefill recompute가 줄고, concurrency 32 지점에서 mean TTFT가 19.3% 개선됐다는 결과가 나온다. autoscaling 실험에서는 Qwen3-32B at TP=2 on H200-SXM을 기준으로 Planner가 static deployment보다 낮은 p90 latency와 낮은 GPU-hours 조합을 찾았고, scaling interval은 5~10초 부근이 churn과 responsiveness 사이에서 균형점으로 나타났다.
이 접근은 agent traffic이 늘수록 더 중요해진다. multi-turn request, burst, cache reuse, cold start가 얽힌 serving system은 작은 unit test로는 충분히 설명되지 않는다. DynoSim이 production trace를 주기적으로 replay하고 더 나은 configuration을 추천하는 단계까지 간다면, LLM inference 운영은 한 번 launch한 설정을 오래 쓰는 방식에서 traffic 변화에 맞춰 계속 재조정하는 방식으로 바뀔 가능성이 크다.
Related Articles
LocalLLaMA 유저가 NVIDIA DGX Spark 16대를 200Gbps 패브릭으로 연결한 클러스터 구축을 완료했다. 통합 메모리 극대화를 목표로 DeepSeek, Kimi 등 대형 모델 서빙을 테스트 중이다.
Zai의 ZCube 사례에서 관심은 새 GPU가 아니라 같은 GPU·같은 software stack으로 throughput 15%와 first-token tail latency 40.6% 개선을 냈다는 점에 모였다.
모델을 하나 고르는 시대보다, 요청마다 비용·속도·성능을 갈아타는 운영층에 돈이 몰리고 있다. OpenRouter는 주간 25조 토큰, 400개 이상 모델, 800만 명 이상 사용자라는 숫자로 $113 million Series B를 끌어냈다.
Comments (0)
No comments yet. Be the first to comment!