GLM-5.1 inference改善、鍵はGPUではなくnetwork topology
Original: Zai replaced the network architecture running GLM-5.1 inference and the gains are pretty wild View original →
ZaiのGLM-5.1 inference clusterに関する投稿がLocalLLaMAで注目された理由は、改善が新しいGPUや新モデルではなくnetwork layerから来ている点だ。投稿によると、ZaiはTsinghua UniversityとHarnetsAIとともに開発したZCubeを、GLM-5.1 coding inferenceを動かすthousand-GPU clusterに適用した。GPU、software stack、modelは同じままだという。
示されたproduction numbersは具体的だった。switchとoptical moduleのコストが33%減り、GPU inference throughputは15%増え、first-token P99 tail latencyは40.6%下がった。通常、network性能を上げるにはより高価な機材が必要に見える。ここではtopologyの変更でコストも下げたという点が議論を呼んだ。
問題の中心はPrefill-Decode disaggregated inferenceにある。KV Cache transferがnode間に非対称trafficを作り、training workloadに向いたROFT topologyがinference traffic patternとは噛み合わない。投稿では、static rail mappingによって特定のLeaf switchにhotspotとPFC backpressureが発生すると説明されている。ZCubeはSpine layerをなくし、二つのswitch groupをcomplete bipartite interconnectで平坦につなぐことで、congestionの種類を構造的に減らす。
コメント欄では「bottleneck keeps moving lower in the stack」という見方が印象的だった。LLM inferenceの最適化は、weight、quantization、schedulerだけでは終わらない。大規模運用では、KV Cache trafficを運ぶnetwork fabricがコストと応答性を決めることがある。
Related Articles
資金はモデルそのものだけでなく、どのリクエストをどのモデルへ流すかを決める層にも集まり始めた。OpenRouterは週25兆トークン、400以上のモデル、800万超のユーザーを掲げて$113 million Series Bを獲得した。
LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。
r/LocalLLaMAではIntel Arc Pro B70/B65の話題が213 upvotes、133 commentsを集めた。IntelはB70を2026年3月25日から$949 starting priceで提供し、B65はmid-Aprilに投入するとしている。
Comments (0)
No comments yet. Be the first to comment!