RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由
Original: Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19 View original →
LocalLLaMAがこの投稿に反応した理由は、単に新しいモデル名が増えたからではない。焦点はもっと実務的だ。投稿者は Qwen3.6-27B を NVFP4+MTP の Hugging Face 版と vLLM 0.19.1rc1 の組み合わせで動かし、RTX 5090 1枚で約80 t/s、218k context window まで出せたと書いた。ローカルLLM界隈では、この種の数字は宣伝文句よりずっと強い。
リンク先のモデルカードも、その注目がどこから来るかを説明している。Qwen3.6-27B-Text-NVFP4-MTP は Qwen/Qwen3.6-27B の text-only NVFP4 量子化版で、speculative decoding が実際に機能するよう MTP head を bf16 で戻したものだ。Blackwell 向けの modelopt 経路を使い、RTX 5090 級のカードで動くことを想定している。要するに、話題の中心は魔法ではなく実装だ。量子化、speculative decoding、runtime 最適化の組み合わせで、単一GPUの体感が大きく変わる。
コメント欄が面白いのは、すぐに現実チェックへ入ったことだ。まず出てきたのは vLLM と LM Studio の差をどう見るかという運用の質問だった。別の読者は、218k context という数字そのものより、どの prompt 長で速度を測ったのかが重要だと指摘した。coding agent はすぐ 30k から 40k token を使うのだから、理論上の窓より実際の条件を見たいという話である。さらに、速度の多くが aggressive な量子化由来ではないか、品質との交換条件を先に知りたいという声も出た。
それでもこの投稿が刺さったのは、ローカル推論の天井がまた動いた感覚を与えたからだ。LocalLLaMAはこれを「もう解決した」とは読んでいない。むしろ、27B モデルが高文脈・高スループットの workstation 候補に入り始めたという合図として読んでいる。そうなると問いは「ローカルで戦えるか」から「いま普通のローカル環境とは何か」へ変わる。出典は Reddit スレッド と Hugging Face モデルカード。
Related Articles
r/LocalLLaMAがこの投稿を押し上げたのは、“trust me bro”な体験談の中に8-bit、64k context、OpenCode、Android debuggingという実使用条件が入っていたからだ。
r/LocalLLaMAの投稿は142 pointsと29 commentsを集め、CoPaw-9Bへの初期関心を示した。議論の中心は、Qwen3.5系の9B Agentモデル、262,144 tokensのcontext、そしてGGUFやquantized releaseが早く出るかどうかだった。
LocalLLaMAが反応したのは単なる数値比較ではなかった。多くのローカル推論ユーザーが事実上の常識として使っていたルールを崩し、とくにGemma系でモデル差が大きいことを示したからだ。2026年4月25日時点でスレッドは324ポイント、58コメントだった。
Comments (0)
No comments yet. Be the first to comment!