RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

LocalLLaMAがこの投稿に反応した理由は、単に新しいモデル名が増えたからではない。焦点はもっと実務的だ。投稿者は Qwen3.6-27B を NVFP4+MTP の Hugging Face 版と vLLM 0.19.1rc1 の組み合わせで動かし、RTX 5090 1枚で約80 t/s、218k context window まで出せたと書いた。ローカルLLM界隈では、この種の数字は宣伝文句よりずっと強い。

リンク先のモデルカードも、その注目がどこから来るかを説明している。Qwen3.6-27B-Text-NVFP4-MTP は Qwen/Qwen3.6-27B の text-only NVFP4 量子化版で、speculative decoding が実際に機能するよう MTP head を bf16 で戻したものだ。Blackwell 向けの modelopt 経路を使い、RTX 5090 級のカードで動くことを想定している。要するに、話題の中心は魔法ではなく実装だ。量子化、speculative decoding、runtime 最適化の組み合わせで、単一GPUの体感が大きく変わる。

コメント欄が面白いのは、すぐに現実チェックへ入ったことだ。まず出てきたのは vLLM と LM Studio の差をどう見るかという運用の質問だった。別の読者は、218k context という数字そのものより、どの prompt 長で速度を測ったのかが重要だと指摘した。coding agent はすぐ 30k から 40k token を使うのだから、理論上の窓より実際の条件を見たいという話である。さらに、速度の多くが aggressive な量子化由来ではないか、品質との交換条件を先に知りたいという声も出た。

それでもこの投稿が刺さったのは、ローカル推論の天井がまた動いた感覚を与えたからだ。LocalLLaMAはこれを「もう解決した」とは読んでいない。むしろ、27B モデルが高文脈・高スループットの workstation 候補に入り始めたという合図として読んでいる。そうなると問いは「ローカルで戦えるか」から「いま普通のローカル環境とは何か」へ変わる。出典は Reddit スレッドと Hugging Face モデルカード。

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

Related Articles

M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た

r/LocalLLaMA、CoPaw-9B公開に反応小型Agentモデルへの期待とquantization需要

「q8_0ならほぼ無損失」を崩したKVキャッシュ検証、LocalLLaMAの反応

Comments (0)

Leave a Comment

Related Articles

M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た

r/LocalLLaMA、CoPaw-9B公開に反応小型Agentモデルへの期待とquantization需要
LLM Reddit Mar 31, 2026 1 min read

「q8_0ならほぼ無損失」を崩したKVキャッシュ検証、LocalLLaMAの反応
LocalLLaMAが反応したのは単なる数値比較ではなかった。多くのローカル推論ユーザーが事実上の常識として使っていたルールを崩し、とくにGemma系でモデル差が大きいことを示したからだ。2026年4月25日時点でスレッドは324ポイント、58コメントだった。