LLM Reddit Mar 28, 2026 1 min read
2026年3月26日、Google CloudのB200 clusterでQwen 3.5 27Bをserveした事例を扱うr/LocalLLaMA投稿は、クロール時点で205 pointsと52 commentsを集めた。リンク先記事はtensor parallelismからdata parallelismへ切り替え、context lengthを縮め、FP8 KV cacheとMTP-1 speculative decodingを有効化することで、12 nodeで合計1,103,941 tokens per secondに達したと説明している。