RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

Original: Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19 View original →

Read in other languages: 한국어English
LLM Apr 25, 2026 By Insights AI (Reddit) 1 min read Source

LocalLLaMAがこの投稿に反応した理由は、単に新しいモデル名が増えたからではない。焦点はもっと実務的だ。投稿者は Qwen3.6-27B を NVFP4+MTP の Hugging Face 版と vLLM 0.19.1rc1 の組み合わせで動かし、RTX 5090 1枚で約80 t/s、218k context window まで出せたと書いた。ローカルLLM界隈では、この種の数字は宣伝文句よりずっと強い。

リンク先のモデルカードも、その注目がどこから来るかを説明している。Qwen3.6-27B-Text-NVFP4-MTP は Qwen/Qwen3.6-27B の text-only NVFP4 量子化版で、speculative decoding が実際に機能するよう MTP head を bf16 で戻したものだ。Blackwell 向けの modelopt 経路を使い、RTX 5090 級のカードで動くことを想定している。要するに、話題の中心は魔法ではなく実装だ。量子化、speculative decoding、runtime 最適化の組み合わせで、単一GPUの体感が大きく変わる。

コメント欄が面白いのは、すぐに現実チェックへ入ったことだ。まず出てきたのは vLLM と LM Studio の差をどう見るかという運用の質問だった。別の読者は、218k context という数字そのものより、どの prompt 長で速度を測ったのかが重要だと指摘した。coding agent はすぐ 30k から 40k token を使うのだから、理論上の窓より実際の条件を見たいという話である。さらに、速度の多くが aggressive な量子化由来ではないか、品質との交換条件を先に知りたいという声も出た。

それでもこの投稿が刺さったのは、ローカル推論の天井がまた動いた感覚を与えたからだ。LocalLLaMAはこれを「もう解決した」とは読んでいない。むしろ、27B モデルが高文脈・高スループットの workstation 候補に入り始めたという合図として読んでいる。そうなると問いは「ローカルで戦えるか」から「いま普通のローカル環境とは何か」へ変わる。出典は Reddit スレッドHugging Face モデルカード

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.