GLM-5.1 inference 병목, GPU가 아니라 network topology였던 사례

Zai가 GLM-5.1 coding inference cluster에서 network architecture를 바꿔 비용과 latency를 동시에 줄였다는 Reddit 글이 LocalLLaMA에서 주목을 받았다. 게시글에 따르면 Zai는 Tsinghua University, HarnetsAI와 함께 ZCube라는 구조를 적용했고, 기존 ROFT setup에서 thousand-GPU inference cluster의 network topology를 바꿨다. 같은 GPU, 같은 software stack, 같은 model이라는 조건이 논점을 선명하게 만든다.

제시된 숫자는 switch와 optical module 비용 33% 감소, GPU inference throughput 15% 증가, first token P99 tail latency 40.6% 감소다. 보통 network 성능을 올리려면 더 비싼 장비를 넣는 방식이 먼저 떠오르지만, 여기서는 topology 변경으로 hardware 비용도 줄었다는 점이 눈에 띈다.

핵심 병목은 Prefill-Decode disaggregated inference에서 나온다. KV Cache transfer가 node 사이에 비대칭 traffic을 만들고, training workload에는 잘 맞는 ROFT topology가 inference traffic pattern과 어긋나면서 특정 Leaf switch에 hotspot과 PFC backpressure가 생긴다는 설명이다. ZCube는 Spine layer를 제거하고 두 switch group 사이를 complete bipartite interconnect로 평탄화해 congestion category 자체를 줄이는 접근을 택했다.

댓글은 “bottleneck keeps moving lower in the stack”이라는 말로 요약됐다. LLM 성능 논의가 model weight와 quantization에서 GPU memory, serving scheduler, 그리고 network fabric으로 내려가고 있다. 대형 inference 운영에서는 모델을 바꾸지 않아도 topology 하나가 비용과 latency를 바꿀 수 있다는 사례다.

Reddit discussion

LLM Reddit Jul 4, 2026 1 min read

GLM5.2 집에서 돌리기, LocalLLaMA가 본 진짜 비용은 GPU 숫자

5개의 RTX PRO 6000과 5090까지 동원한 실험은 로컬 LLM의 낭만보다 전력, VRAM, 예산의 현실을 더 선명하게 보여줬다.

#glm #local-llm #gpu

LLM Hacker News 2d ago 1 min read

GLM-5.2를 느린 PC에서 돌리는 Colibri, Local AI의 병목은 GPU만이 아닌 이유

744B MoE 모델을 소비자용 PC에서 돌리겠다는 실험에 관심이 모였다. Colibri는 GLM-5.2의 활성 파라미터와 전문가 라우팅 구조를 이용해, 거대한 모델을 전부 RAM이나 GPU에 올리지 않는 쪽으로 설계를 잡았다.

#glm-5.2 #local-ai #inference

LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMA, Qwen3.5 27B를 local inference의 sweet spot으로 평가

r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.

#qwen #local-llm #llama-cpp

Related Articles

GLM5.2 집에서 돌리기, LocalLLaMA가 본 진짜 비용은 GPU 숫자

GLM-5.2를 느린 PC에서 돌리는 Colibri, Local AI의 병목은 GPU만이 아닌 이유

r/LocalLLaMA, Qwen3.5 27B를 local inference의 sweet spot으로 평가