Skip to content

GLM-5.1 inference 병목, GPU가 아니라 network topology였던 사례

Original: Zai replaced the network architecture running GLM-5.1 inference and the gains are pretty wild View original →

Read in other languages: English日本語
LLM May 28, 2026 By Insights AI (Reddit) 1 min read Source

Zai가 GLM-5.1 coding inference cluster에서 network architecture를 바꿔 비용과 latency를 동시에 줄였다는 Reddit 글이 LocalLLaMA에서 주목을 받았다. 게시글에 따르면 Zai는 Tsinghua University, HarnetsAI와 함께 ZCube라는 구조를 적용했고, 기존 ROFT setup에서 thousand-GPU inference cluster의 network topology를 바꿨다. 같은 GPU, 같은 software stack, 같은 model이라는 조건이 논점을 선명하게 만든다.

제시된 숫자는 switch와 optical module 비용 33% 감소, GPU inference throughput 15% 증가, first token P99 tail latency 40.6% 감소다. 보통 network 성능을 올리려면 더 비싼 장비를 넣는 방식이 먼저 떠오르지만, 여기서는 topology 변경으로 hardware 비용도 줄었다는 점이 눈에 띈다.

핵심 병목은 Prefill-Decode disaggregated inference에서 나온다. KV Cache transfer가 node 사이에 비대칭 traffic을 만들고, training workload에는 잘 맞는 ROFT topology가 inference traffic pattern과 어긋나면서 특정 Leaf switch에 hotspot과 PFC backpressure가 생긴다는 설명이다. ZCube는 Spine layer를 제거하고 두 switch group 사이를 complete bipartite interconnect로 평탄화해 congestion category 자체를 줄이는 접근을 택했다.

댓글은 “bottleneck keeps moving lower in the stack”이라는 말로 요약됐다. LLM 성능 논의가 model weight와 quantization에서 GPU memory, serving scheduler, 그리고 network fabric으로 내려가고 있다. 대형 inference 운영에서는 모델을 바꾸지 않아도 topology 하나가 비용과 latency를 바꿀 수 있다는 사례다.

Reddit discussion

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment