#nvidia-b200 - Insights

LLM Reddit Mar 28, 2026 2 min read

LocalLLaMA가 본 Qwen 3.5 27B 110만 tok/s, 핵심은 B200보다 vLLM 튜닝

2026년 3월 26일 Google Cloud B200 cluster에서 Qwen 3.5 27B를 서빙한 사례를 다룬 r/LocalLLaMA 글은 크롤링 시점 기준 205 points와 52 comments를 기록했다. 링크된 글은 tensor parallelism에서 data parallelism으로 바꾸고, context length를 줄이며, FP8 KV cache와 MTP-1 speculative decoding을 적용해 12 node에서 총 1,103,941 tokens per second를 달성했다고 설명한다.

#qwen #vllm #nvidia-b200