r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価
Original: Qwen3.5 27B is Match Made in Heaven for Size and Performance View original →
r/LocalLLaMA thread では、Qwen3.5 27Bがlocal deployment向けにかなり実用的なmodelとして扱われている。元投稿者はQwen3.5-27B-Q8_0のunsloth GGUFをRTX A6000 48GB上で llama.cpp with CUDA から動かし、32K contextで約19.7 tokens/secを得たと書いている。Q8 quantは約28.6GBのVRAMに収まり、KV cache用の余裕も残るため、qualityを落としてまで低いquantへ下げる理由は少ないというのが投稿者の見立てだ。
この投稿が面白いのは、単なるspeed自慢ではなく、なぜこのmodelが使いやすいかをarchitectureの側から説明している点だ。投稿はQwen3.5 27BがGated Delta Networksとstandard attention layersを組み合わせたhybrid architectureを採用しており、long contextでpure transformerより有利になり得ると書く。リンクされた Qwen model card も、27B parameters、vision capability、262,144 native context、約1,010,000 tokensまでの拡張、201 languages and dialects対応を明記している。さらにGPQA Diamond、SWE-bench Verified、HMMT、BFCL-V4などで強い数値を載せており、communityがこのmodelを本気で比較対象にしている理由がわかる。
本当の論点はVRAM economicsにある
commentsではdense 27BとQwen3.5 35B-A3B MoEのどちらが現実的かという議論が始まる。あるcommenterはsingle RTX 3090でQ5 quantなら約25 tokens/secだと書き、別のcommenterはlow-VRAM hardwareではdense 27BよりMoEのほうがずっと速い場合があると反論する。ここが重要で、communityが見ているのは単純なabsolute performanceではない。quality、speed、quantization、memory pressureが自分のhardware envelopeでどう交差するかという現実的な問題だ。
だからこのthreadの価値は新modelの宣伝よりdeployment recipeの共有にある。投稿は llama-server のOpenAI-compatible endpoint経由でstreamingできる点にも触れており、既存のSDK integrationへ差し込みやすい。Qwen3.5 27Bがすべてのlocal workloadに最適だと言い切ることはできないが、single high-memory GPUで強いqualityと実用速度を狙えるreference pointになっているのは確かだ。出典は r/LocalLLaMA post と Qwen3.5-27B model card である。
Related Articles
LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。
LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。
llama.cppのマルチトークン予測(MTP)サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。
Comments (0)
No comments yet. Be the first to comment!