LLM Reddit Mar 28, 2026 2 min read
2026년 3월 26일 Google Cloud B200 cluster에서 Qwen 3.5 27B를 서빙한 사례를 다룬 r/LocalLLaMA 글은 크롤링 시점 기준 205 points와 52 comments를 기록했다. 링크된 글은 tensor parallelism에서 data parallelism으로 바꾸고, context length를 줄이며, FP8 KV cache와 MTP-1 speculative decoding을 적용해 12 node에서 총 1,103,941 tokens per second를 달성했다고 설명한다.