RTX 5090 1枚でQwen3.6-27Bが80 tps、LocalLLaMAがすぐ確かめた前提条件
Original: Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19 View original →
LocalLLaMAはheadlineの数字を気に入ったが、そこで止まらなかった。あるユーザーがsingle RTX 5090でvLLM 0.19.1rc1とNVFP4+MTP buildを使い、Qwen3.6-27Bを約80 tps、218k context windowで回したと報告すると、スレッドはすぐ熱を持った。VRAMとthroughputと、実際に一台のマシンへ何が載るかを重視するコミュニティにとって、この組み合わせは十分に大きな材料だった。
刺さった理由も明快である。これは曖昧なcloud自慢でも、何となく強そうなbenchmark画像でもない。GPU一枚、serving stack一つ、そして長いcontextを保ちながらinteractive speedを狙うという、かなり再現しやすいlocal recipeとして提示された。LocalLLaMAが好むのはまさにこの種の投稿だ。抽象的なモデル競争を、今日自分のhardwareで何をどれだけ回せるかという実務の問いに落としてくれるからである。
コメント欄はやはりLocalLLaMAらしく、興奮の次に監査が始まった。実際のbenchmarkでpromptをどこまで埋めたのか、context windowの数字だけでは意味が薄いという指摘が出た。DFlashやQ8へ動かしてもacceptance rateが保てるかという提案もあり、選んだquantizationはKLD特性が弱いという警告も付いた。さらに、LM Studioと比べてvLLMの利点はどこにあるのかという素朴な質問も目立った。配備の手間そのものが性能表の一部だという感覚である。
だからこの投稿は、単なるscreenshot賛美よりずっと役に立った。LocalLLaMAが票を入れたのは80 tpsの派手さより、実運用の手前まで来たlocal inference recipeに対する集団レビューである。最後に残る問いも一つではない。長いcontextを本当に埋めたときもその速度が維持されるのか、quantの品質は持つのか、現実のworkloadで再現できるのか。そこまで含めてはじめて数字が意味を持つ。出典はRedditスレッドとHugging Faceのモデルページである。
Related Articles
LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。
HNがDeepSeek V4に飛びついた理由はきれいな発表ページではなかった。表のリンクがAPI docsで、実際の重みとbaseモデルがすでにHugging Faceに並んでいたことが一気に火を付けた。
重要なのは、inference costがinfrastructure問題だけでなくproduct constraintになっている点だ。CohereはvLLMのW4A8 pathがHopper上でW4A16比TTFT最大58%、TPOT最大45%高速だと述べた。
Comments (0)
No comments yet. Be the first to comment!