r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

r/LocalLLaMA thread では、Qwen3.5 27Bがlocal deployment向けにかなり実用的なmodelとして扱われている。元投稿者はQwen3.5-27B-Q8_0のunsloth GGUFをRTX A6000 48GB上で llama.cpp with CUDA から動かし、32K contextで約19.7 tokens/secを得たと書いている。Q8 quantは約28.6GBのVRAMに収まり、KV cache用の余裕も残るため、qualityを落としてまで低いquantへ下げる理由は少ないというのが投稿者の見立てだ。

この投稿が面白いのは、単なるspeed自慢ではなく、なぜこのmodelが使いやすいかをarchitectureの側から説明している点だ。投稿はQwen3.5 27BがGated Delta Networksとstandard attention layersを組み合わせたhybrid architectureを採用しており、long contextでpure transformerより有利になり得ると書く。リンクされた Qwen model card も、27B parameters、vision capability、262,144 native context、約1,010,000 tokensまでの拡張、201 languages and dialects対応を明記している。さらにGPQA Diamond、SWE-bench Verified、HMMT、BFCL-V4などで強い数値を載せており、communityがこのmodelを本気で比較対象にしている理由がわかる。

本当の論点はVRAM economicsにある

commentsではdense 27BとQwen3.5 35B-A3B MoEのどちらが現実的かという議論が始まる。あるcommenterはsingle RTX 3090でQ5 quantなら約25 tokens/secだと書き、別のcommenterはlow-VRAM hardwareではdense 27BよりMoEのほうがずっと速い場合があると反論する。ここが重要で、communityが見ているのは単純なabsolute performanceではない。quality、speed、quantization、memory pressureが自分のhardware envelopeでどう交差するかという現実的な問題だ。

だからこのthreadの価値は新modelの宣伝よりdeployment recipeの共有にある。投稿は llama-server のOpenAI-compatible endpoint経由でstreamingできる点にも触れており、既存のSDK integrationへ差し込みやすい。Qwen3.5 27Bがすべてのlocal workloadに最適だと言い切ることはできないが、single high-memory GPUで強いqualityと実用速度を狙えるreference pointになっているのは確かだ。出典は r/LocalLLaMA post と Qwen3.5-27B model card である。

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

本当の論点はVRAM economicsにある

Related Articles

12GB VRAMでQwen3.6 35Bを毎秒80トークン以上で動かす設定を公開

12GB VRAMでQwen3.6 35BをIk_llama.cppで110 tok/s達成

llama.cppのMTPサポートがベータ版に、vLLMとの性能差が縮まる見込み

Comments (0)

Leave a Comment

Related Articles

12GB VRAMでQwen3.6 35Bを毎秒80トークン以上で動かす設定を公開
LLM Reddit May 10, 2026 1 min read

12GB VRAMでQwen3.6 35BをIk_llama.cppで110 tok/s達成
LLM Reddit May 22, 2026 1 min read

llama.cppのMTPサポートがベータ版に、vLLMとの性能差が縮まる見込み
LLM Reddit May 4, 2026 1 min read