Qwen3.6 27BがRTX 5090一枚で100 tps LocalLLaMAが先に聞いたのは品質

Original: Qwen3.6-27B-INT4 clocking 100 tps with 256k context length on 1x RTX 5090 via vllm 0.19 View original →

Read in other languages: 한국어English
LLM Apr 27, 2026 By Insights AI (Reddit) 1 min read Source

LocalLLaMAのスレッド1sw21opが伸びた理由は、数字の派手さだけではない。投稿者は Qwen3.6-27B-INT4 を vLLM 0.19 で動かし、RTX 5090 一枚で 105-108 tokens per second、しかも 256k の native context window を維持できたと書いた。ローカル推論勢にとっては、速度、文脈長、VRAM現実性が一つの投稿に揃った形だ。

投稿本文では、Lorbus の AutoRound INT4 quant、fp8 KV cache、MTP speculative decoding が鍵として挙げられている。共有された launch config には --max-model-len 262144--kv-cache-dtype fp8_e4m3--quantization auto_round、さらに speculative token を3つ使う MTP 設定が含まれていた。前日の 80 tps / 218k context 投稿からさらに詰めた形なので、単なる screenshot ではなく再現可能な tuning recipe として読まれた。

コメント欄の温度も面白い。称賛より先に、「Unsloth系のQ4と比べて品質はどうか」「coding agent用途でも崩れないか」「16GBや24GB VRAMではどこまで持ち込めるか」という問いが並んだ。別ユーザーは 24GB RTX 3090 で 71-83 tok/s の例を出し、turboquant系のKV圧縮、MTP、cudagraph mode、chunked prefill の効き方まで共有している。

  • 投稿者の主張は 105-108 tps と 256k native context の両立だ。
  • モデルは Lorbus Qwen3.6-27B-int4-AutoRound
  • 議論の中心は speed brag ではなく、再現性と quality tradeoff だった。

LocalLLaMAがこの投稿を押し上げたのは、27B級ローカルモデルが「見せ場」から「実用品」に一段近づいた感触があるからだ。十分に速く、文脈も長く、それでも community がすぐ再現と品質検証に入れる。この流れ自体が今のローカル推論文化をよく表している。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.