Qwen3.6 27BがRTX 5090一枚で100 tps LocalLLaMAが先に聞いたのは品質
Original: Qwen3.6-27B-INT4 clocking 100 tps with 256k context length on 1x RTX 5090 via vllm 0.19 View original →
LocalLLaMAのスレッド1sw21opが伸びた理由は、数字の派手さだけではない。投稿者は Qwen3.6-27B-INT4 を vLLM 0.19 で動かし、RTX 5090 一枚で 105-108 tokens per second、しかも 256k の native context window を維持できたと書いた。ローカル推論勢にとっては、速度、文脈長、VRAM現実性が一つの投稿に揃った形だ。
投稿本文では、Lorbus の AutoRound INT4 quant、fp8 KV cache、MTP speculative decoding が鍵として挙げられている。共有された launch config には --max-model-len 262144、--kv-cache-dtype fp8_e4m3、--quantization auto_round、さらに speculative token を3つ使う MTP 設定が含まれていた。前日の 80 tps / 218k context 投稿からさらに詰めた形なので、単なる screenshot ではなく再現可能な tuning recipe として読まれた。
コメント欄の温度も面白い。称賛より先に、「Unsloth系のQ4と比べて品質はどうか」「coding agent用途でも崩れないか」「16GBや24GB VRAMではどこまで持ち込めるか」という問いが並んだ。別ユーザーは 24GB RTX 3090 で 71-83 tok/s の例を出し、turboquant系のKV圧縮、MTP、cudagraph mode、chunked prefill の効き方まで共有している。
- 投稿者の主張は 105-108 tps と 256k native context の両立だ。
- モデルは Lorbus Qwen3.6-27B-int4-AutoRound。
- 議論の中心は speed brag ではなく、再現性と quality tradeoff だった。
LocalLLaMAがこの投稿を押し上げたのは、27B級ローカルモデルが「見せ場」から「実用品」に一段近づいた感触があるからだ。十分に速く、文脈も長く、それでも community がすぐ再現と品質検証に入れる。この流れ自体が今のローカル推論文化をよく表している。
Related Articles
LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。
r/LocalLLaMAがこの投稿を押し上げたのは、“trust me bro”な体験談の中に8-bit、64k context、OpenCode、Android debuggingという実使用条件が入っていたからだ。
r/LocalLLaMAの投稿は142 pointsと29 commentsを集め、CoPaw-9Bへの初期関心を示した。議論の中心は、Qwen3.5系の9B Agentモデル、262,144 tokensのcontext、そしてGGUFやquantized releaseが早く出るかどうかだった。
Comments (0)
No comments yet. Be the first to comment!