Qwen3.6 27BがRTX 5090一枚で100 tps　LocalLLaMAが先に聞いたのは品質

LocalLLaMAのスレッド1sw21opが伸びた理由は、数字の派手さだけではない。投稿者は Qwen3.6-27B-INT4 を vLLM 0.19 で動かし、RTX 5090 一枚で 105-108 tokens per second、しかも 256k の native context window を維持できたと書いた。ローカル推論勢にとっては、速度、文脈長、VRAM現実性が一つの投稿に揃った形だ。

投稿本文では、Lorbus の AutoRound INT4 quant、fp8 KV cache、MTP speculative decoding が鍵として挙げられている。共有された launch config には --max-model-len 262144、--kv-cache-dtype fp8_e4m3、--quantization auto_round、さらに speculative token を3つ使う MTP 設定が含まれていた。前日の 80 tps / 218k context 投稿からさらに詰めた形なので、単なる screenshot ではなく再現可能な tuning recipe として読まれた。

コメント欄の温度も面白い。称賛より先に、「Unsloth系のQ4と比べて品質はどうか」「coding agent用途でも崩れないか」「16GBや24GB VRAMではどこまで持ち込めるか」という問いが並んだ。別ユーザーは 24GB RTX 3090 で 71-83 tok/s の例を出し、turboquant系のKV圧縮、MTP、cudagraph mode、chunked prefill の効き方まで共有している。

投稿者の主張は 105-108 tps と 256k native context の両立だ。
モデルは Lorbus Qwen3.6-27B-int4-AutoRound。
議論の中心は speed brag ではなく、再現性と quality tradeoff だった。

LocalLLaMAがこの投稿を押し上げたのは、27B級ローカルモデルが「見せ場」から「実用品」に一段近づいた感触があるからだ。十分に速く、文脈も長く、それでも community がすぐ再現と品質検証に入れる。この流れ自体が今のローカル推論文化をよく表している。

Qwen3.6 27BがRTX 5090一枚で100 tps　LocalLLaMAが先に聞いたのは品質

Related Articles

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た

r/LocalLLaMA、CoPaw-9B公開に反応小型Agentモデルへの期待とquantization需要

Comments (0)

Leave a Comment

Related Articles

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由
LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。

M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た
LLM Reddit Apr 20, 2026 1 min read

r/LocalLLaMA、CoPaw-9B公開に反応小型Agentモデルへの期待とquantization需要
LLM Reddit Mar 31, 2026 1 min read