#nvidia-b200 - Insights

LLM Reddit Mar 28, 2026 1 min read

LocalLLaMAが見たQwen 3.5 27Bの110万 tok/s、主役はB200よりvLLM tuning

2026年3月26日、Google CloudのB200 clusterでQwen 3.5 27Bをserveした事例を扱うr/LocalLLaMA投稿は、クロール時点で205 pointsと52 commentsを集めた。リンク先記事はtensor parallelismからdata parallelismへ切り替え、context lengthを縮め、FP8 KV cacheとMTP-1 speculative decodingを有効化することで、12 nodeで合計1,103,941 tokens per secondに達したと説明している。

#qwen #vllm #nvidia-b200