GLM-5.1 inference 병목, GPU가 아니라 network topology였던 사례
Original: Zai replaced the network architecture running GLM-5.1 inference and the gains are pretty wild View original →
Zai가 GLM-5.1 coding inference cluster에서 network architecture를 바꿔 비용과 latency를 동시에 줄였다는 Reddit 글이 LocalLLaMA에서 주목을 받았다. 게시글에 따르면 Zai는 Tsinghua University, HarnetsAI와 함께 ZCube라는 구조를 적용했고, 기존 ROFT setup에서 thousand-GPU inference cluster의 network topology를 바꿨다. 같은 GPU, 같은 software stack, 같은 model이라는 조건이 논점을 선명하게 만든다.
제시된 숫자는 switch와 optical module 비용 33% 감소, GPU inference throughput 15% 증가, first token P99 tail latency 40.6% 감소다. 보통 network 성능을 올리려면 더 비싼 장비를 넣는 방식이 먼저 떠오르지만, 여기서는 topology 변경으로 hardware 비용도 줄었다는 점이 눈에 띈다.
핵심 병목은 Prefill-Decode disaggregated inference에서 나온다. KV Cache transfer가 node 사이에 비대칭 traffic을 만들고, training workload에는 잘 맞는 ROFT topology가 inference traffic pattern과 어긋나면서 특정 Leaf switch에 hotspot과 PFC backpressure가 생긴다는 설명이다. ZCube는 Spine layer를 제거하고 두 switch group 사이를 complete bipartite interconnect로 평탄화해 congestion category 자체를 줄이는 접근을 택했다.
댓글은 “bottleneck keeps moving lower in the stack”이라는 말로 요약됐다. LLM 성능 논의가 model weight와 quantization에서 GPU memory, serving scheduler, 그리고 network fabric으로 내려가고 있다. 대형 inference 운영에서는 모델을 바꾸지 않아도 topology 하나가 비용과 latency를 바꿀 수 있다는 사례다.
Related Articles
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
모델을 하나 고르는 시대보다, 요청마다 비용·속도·성능을 갈아타는 운영층에 돈이 몰리고 있다. OpenRouter는 주간 25조 토큰, 400개 이상 모델, 800만 명 이상 사용자라는 숫자로 $113 million Series B를 끌어냈다.
r/MachineLearning의 새 글이 TurboQuant를 KV cache 논의에서 weight compression 단계로 끌어왔다. GitHub 구현은 low-bit LLM inference용 drop-in path를 목표로 한다.
Comments (0)
No comments yet. Be the first to comment!