r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価
Original: Qwen3.5 27B is Match Made in Heaven for Size and Performance View original →
r/LocalLLaMA thread では、Qwen3.5 27Bがlocal deployment向けにかなり実用的なmodelとして扱われている。元投稿者はQwen3.5-27B-Q8_0のunsloth GGUFをRTX A6000 48GB上で llama.cpp with CUDA から動かし、32K contextで約19.7 tokens/secを得たと書いている。Q8 quantは約28.6GBのVRAMに収まり、KV cache用の余裕も残るため、qualityを落としてまで低いquantへ下げる理由は少ないというのが投稿者の見立てだ。
この投稿が面白いのは、単なるspeed自慢ではなく、なぜこのmodelが使いやすいかをarchitectureの側から説明している点だ。投稿はQwen3.5 27BがGated Delta Networksとstandard attention layersを組み合わせたhybrid architectureを採用しており、long contextでpure transformerより有利になり得ると書く。リンクされた Qwen model card も、27B parameters、vision capability、262,144 native context、約1,010,000 tokensまでの拡張、201 languages and dialects対応を明記している。さらにGPQA Diamond、SWE-bench Verified、HMMT、BFCL-V4などで強い数値を載せており、communityがこのmodelを本気で比較対象にしている理由がわかる。
本当の論点はVRAM economicsにある
commentsではdense 27BとQwen3.5 35B-A3B MoEのどちらが現実的かという議論が始まる。あるcommenterはsingle RTX 3090でQ5 quantなら約25 tokens/secだと書き、別のcommenterはlow-VRAM hardwareではdense 27BよりMoEのほうがずっと速い場合があると反論する。ここが重要で、communityが見ているのは単純なabsolute performanceではない。quality、speed、quantization、memory pressureが自分のhardware envelopeでどう交差するかという現実的な問題だ。
だからこのthreadの価値は新modelの宣伝よりdeployment recipeの共有にある。投稿は llama-server のOpenAI-compatible endpoint経由でstreamingできる点にも触れており、既存のSDK integrationへ差し込みやすい。Qwen3.5 27Bがすべてのlocal workloadに最適だと言い切ることはできないが、single high-memory GPUで強いqualityと実用速度を狙えるreference pointになっているのは確かだ。出典は r/LocalLLaMA post と Qwen3.5-27B model card である。
Related Articles
2026年3月のr/LocalLLaMAで126 pointsと45 commentsを集めた投稿は、Qwen3.5-27Bをllama.cppで動かしOpenCodeへ接続する実践ガイドを取り上げた。注目点は、quant選択、chat-template修正、VRAM予算、Tailscale networking、tool-callingの挙動といった、実際のローカルcoding環境を左右する運用ディテールを扱っていることだ。
r/LocalLLaMAのfield reportは、非常に具体的なlocal inference workloadをthroughput重視で調整した事例を示した。投稿者はQwen 3.5 27Bでmarkdown文書を分類しながら約2,000 tokens per secondを記録したと述べ、commentでは実務的な最適化論点が追加された。
LocalLLaMA では、Gemma 4 の初期トラブルの一部は model 自体ではなく llama.cpp runtime bugs や support lag に起因する可能性があるという指摘が出ている。複数の pull request と user report が、early benchmark を読み替える必要性を示している。
Comments (0)
No comments yet. Be the first to comment!