GLM-5.1 inference改善、鍵はGPUではなくnetwork topology

ZaiのGLM-5.1 inference clusterに関する投稿がLocalLLaMAで注目された理由は、改善が新しいGPUや新モデルではなくnetwork layerから来ている点だ。投稿によると、ZaiはTsinghua UniversityとHarnetsAIとともに開発したZCubeを、GLM-5.1 coding inferenceを動かすthousand-GPU clusterに適用した。GPU、software stack、modelは同じままだという。

示されたproduction numbersは具体的だった。switchとoptical moduleのコストが33%減り、GPU inference throughputは15%増え、first-token P99 tail latencyは40.6%下がった。通常、network性能を上げるにはより高価な機材が必要に見える。ここではtopologyの変更でコストも下げたという点が議論を呼んだ。

問題の中心はPrefill-Decode disaggregated inferenceにある。KV Cache transferがnode間に非対称trafficを作り、training workloadに向いたROFT topologyがinference traffic patternとは噛み合わない。投稿では、static rail mappingによって特定のLeaf switchにhotspotとPFC backpressureが発生すると説明されている。ZCubeはSpine layerをなくし、二つのswitch groupをcomplete bipartite interconnectで平坦につなぐことで、congestionの種類を構造的に減らす。

コメント欄では「bottleneck keeps moving lower in the stack」という見方が印象的だった。LLM inferenceの最適化は、weight、quantization、schedulerだけでは終わらない。大規模運用では、KV Cache trafficを運ぶnetwork fabricがコストと応答性を決めることがある。

Reddit discussion

GLM-5.1 inference改善、鍵はGPUではなくnetwork topology

Related Articles

GLM5.2を自宅で動かす現実、LocalLLaMAが見たGPU請求書

低速PCでGLM-5.2を動かすColibri、焦点はGPUではなくメモリ移動

Intel Arc Pro B70/B65がLocalLLaMAの本命候補として浮上

Related Articles

GLM5.2を自宅で動かす現実、LocalLLaMAが見たGPU請求書
LLM Reddit Jul 4, 2026 1 min read

低速PCでGLM-5.2を動かすColibri、焦点はGPUではなくメモリ移動

Intel Arc Pro B70/B65がLocalLLaMAの本命候補として浮上
LLM Reddit Mar 26, 2026 1 min read