LocalLLaMA가 본 Qwen 3.5 27B 110만 tok/s, 핵심은 B200보다 vLLM 튜닝

설정을 보게 만들 만큼 큰 throughput 숫자

2026년 3월 26일 r/LocalLLaMA에는 Google Cloud community 글 하나가 공유됐다. 내용은 Qwen 3.5 27B를 vLLM으로 서빙하면서 12 node, 96개의 NVIDIA B200 GPU에서 총 1,103,941 tokens per second를 달성했다는 것이다. Reddit 반응은 크롤링 시점 기준 205 points와 52 comments였다. headline 숫자도 크지만, 더 유용한 부분은 이 글이 결과를 당연한 것처럼 포장하지 않고 실패 경로와 튜닝 과정을 함께 남겼다는 점이다.

작성자는 모델 선택 자체가 의도적이었다고 설명한다. Qwen 3.5 27B는 MoE sibling이 아니라 dense variant라서, 모든 token마다 모든 parameter가 활성화된다. sparse 대안보다 가속이 더 어렵지만, heavy output workload에서 품질을 중시하는 운영자 입장에서는 오히려 더 의미 있는 결과가 된다. 글은 또한 이 모델의 hybrid GDN plus grouped-query-attention 구조, 262K native context window, Apache 2.0 license를 함께 짚는다.

왜 서빙 전략이 결과를 바꿨나

글에 따르면 처음 선택은 node당 8개 GPU를 묶는 tensor parallelism이었다. 하지만 이 방식은 대략 9,500 tok/s에서 22,300 tok/s 정도로만 올라갔고, 이유는 synchronization overhead가 지배적이었기 때문이다. 이후 각 GPU가 약 29GB 크기의 전체 모델 사본을 독립적으로 들고 가는 data parallelism으로 전환하자, throughput은 즉시 약 74,848 tok/s까지 뛰었다. 그다음에는 많은 팀이 과소평가하는 context-window tuning이 중요해졌다. 최대 길이를 131K에서 몇천 token 수준으로 낮추자 KV-cache 용량이 풀리면서 성능이 다시 올라갔다.

진짜 돌파구는 vLLM 0.18.0에서 FP8 KV cache와 MTP-1 speculative decoding을 켠 뒤 나왔다. 글의 측정값 기준 MTP를 제거하면 throughput이 약 3분의 1 떨어지고 GPU compute도 다시 0%에 가까워졌으며, 최적화된 single-node setup은 multi-node scaling 전 약 96,000 tok/s에 도달했다. Reddit post는 여기에 두 가지 상위 결과를 더 덧붙인다. 8 node에서 약 97.1%, 12 node에서 96.5% scaling efficiency를 기록했고, KV-aware routing이 붙은 Inference Gateway를 쓰면 더 단순한 ClusterIP round-robin 대비 약 35% overhead가 있었다는 것이다.

왜 LocalLLaMA가 관심을 가졌나

이 글이 퍼진 이유는 화려한 인프라 benchmark를 운영 playbook으로 바꿔줬기 때문이다. 핵심 교훈은 B200가 빠르다는 사실 자체가 아니다. 그건 모두가 이미 예상했다. 진짜 교훈은 TP와 DP의 선택, speculative decoding, KV-cache dtype, 실제 workload에 맞는 context size처럼 serving stack 결정이 raw accelerator spec보다 더 중요할 수 있다는 점이다. 이는 open model 배포 팀에게 특히 중요하다. 더 많은 hardware를 사기 전에 inference configuration을 먼저 고쳐야 할 수도 있기 때문이다.

작성자는 자신이 Google Cloud에서 일한다고 공개했다. 따라서 이 수치는 중립적 baseline보다 vendor-affiliated 환경에서 최적화된 결과로 읽어야 한다. 그럼에도 엔지니어링 세부사항은 충분히 구체적이고, GitHub config까지 연결돼 있어서 일반적인 marketing benchmark보다 재현 가능성은 훨씬 높다.

원문: Google Cloud community write-up. 커뮤니티 토론: r/LocalLLaMA.

LocalLLaMA가 본 Qwen 3.5 27B 110만 tok/s, 핵심은 B200보다 vLLM 튜닝

설정을 보게 만들 만큼 큰 throughput 숫자

왜 서빙 전략이 결과를 바꿨나

왜 LocalLLaMA가 관심을 가졌나

Related Articles

Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다

LocalLLaMA, K=64 커널 패치로 Blackwell 워크스테이션의 Qwen3.5-397B 추론 개선 주장

RTX 3090에서 거의 2배, LocalLLaMA가 Luce DFlash에 몰린 이유

Comments (0)

Leave a Comment

Related Articles

Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다
LLM Reddit Apr 27, 2026 1 min read

LocalLLaMA, K=64 커널 패치로 Blackwell 워크스테이션의 Qwen3.5-397B 추론 개선 주장
LLM Reddit Mar 15, 2026 2 min read

RTX 3090에서 거의 2배, LocalLLaMA가 Luce DFlash에 몰린 이유
LLM Reddit Apr 28, 2026 1 min read