Skip to content

GLM-5.1 inference改善、鍵はGPUではなくnetwork topology

Original: Zai replaced the network architecture running GLM-5.1 inference and the gains are pretty wild View original →

Read in other languages: 한국어English
LLM May 28, 2026 By Insights AI (Reddit) 1 min read Source

ZaiのGLM-5.1 inference clusterに関する投稿がLocalLLaMAで注目された理由は、改善が新しいGPUや新モデルではなくnetwork layerから来ている点だ。投稿によると、ZaiはTsinghua UniversityとHarnetsAIとともに開発したZCubeを、GLM-5.1 coding inferenceを動かすthousand-GPU clusterに適用した。GPU、software stack、modelは同じままだという。

示されたproduction numbersは具体的だった。switchとoptical moduleのコストが33%減り、GPU inference throughputは15%増え、first-token P99 tail latencyは40.6%下がった。通常、network性能を上げるにはより高価な機材が必要に見える。ここではtopologyの変更でコストも下げたという点が議論を呼んだ。

問題の中心はPrefill-Decode disaggregated inferenceにある。KV Cache transferがnode間に非対称trafficを作り、training workloadに向いたROFT topologyがinference traffic patternとは噛み合わない。投稿では、static rail mappingによって特定のLeaf switchにhotspotとPFC backpressureが発生すると説明されている。ZCubeはSpine layerをなくし、二つのswitch groupをcomplete bipartite interconnectで平坦につなぐことで、congestionの種類を構造的に減らす。

コメント欄では「bottleneck keeps moving lower in the stack」という見方が印象的だった。LLM inferenceの最適化は、weight、quantization、schedulerだけでは終わらない。大規模運用では、KV Cache trafficを運ぶnetwork fabricがコストと応答性を決めることがある。

Reddit discussion

Share: Long

Related Articles

LLM Reddit 6d ago 1 min read

LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment