Qwen 3.5ローカル実行ガイド、必要メモリと256K context、llama.cpp手順を整理

Hacker Newsに上がった「How to run Qwen 3.5 locally」は、単なるモデル紹介というより運用ガイドだ。リンク先のUnsloth文書は、Qwen3.5 familyを実際のローカル環境でどう動かすかに焦点を当て、35B-A3B, 27B, 122B-A10B, 397B-A17Bに加えてsmall 0.8B, 2B, 4B, 9Bまで一度に整理している。

実務上もっとも価値があるのはメモリ要件の表だ。Unslothは4-bit基準で、27Bは17 GB、35B-A3Bは22 GB、122B-A10Bは70 GB、397B-A17Bは214 GBを目安として示している。文書はQwen3.5が256K contextと201言語をサポートすると説明し、27Bと35B-A3Bを22GB級のMacやunified memory環境でも現実的な候補として位置づけている。同時に、少しでもaccuracyを優先するなら27B、より速いinferenceを重視するなら35B-A3Bという判断基準も明記している。

ガイドが提供する実務情報

model sizeごとのメモリ予算とquantization選択
thinking modeとnon-thinking mode向けのtemperature, top-p, top-k推奨値
--chat-template-kwargs '{"enable_thinking":false}' を使うreasoning制御
llama.cppのbuild手順とllama-cli実行例
GGUF再取得、quantization更新、tool-calling修正に関する運用メモ

重要なのは、この文書がbenchmark記事ではなくdeployment cookbookとして機能している点だ。最新のllama.cppをGitHubから取得してbuildする手順、Hugging FaceからGGUFを取得する方法、Dynamic 4-bit variantを用途別に起動する例まで含まれている。さらにMarch 5 updateでは、improved quantization algorithm, new imatrix data, chat template fixが入ったため、一部GGUFを再ダウンロードすべきだと案内している。

backend選定に関する注意も実用的だ。文書は、現在のQwen3.5 GGUFはseparate mmproj vision fileのためOllamaでは動かず、llama.cpp互換backendを使うべきだとしている。つまりこのHN投稿の価値は、新しいmodel familyの存在そのものよりも、どのsizeをどのメモリ予算で、どのruntime設定とbackendで試すべきかを即座に判断できることにある。ローカルLLMを運用するチームには、こうした実装寄りの資料が最も役に立つ。

Qwen 3.5ローカル実行ガイド、必要メモリと256K context、llama.cpp手順を整理

ガイドが提供する実務情報

Related Articles

Qwen3.6の熱気は、r/LocalLLaMAでGGUF運用チェックリストになった

LocalLLaMAで注目を集めた llama.cpp のCPU offload prefetch実験

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

Related Articles

Qwen3.6の熱気は、r/LocalLLaMAでGGUF運用チェックリストになった
LLM Reddit Apr 18, 2026 1 min read

LocalLLaMAで注目を集めた llama.cpp のCPU offload prefetch実験
LLM Reddit Mar 31, 2026 1 min read

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい
LLM Reddit Apr 16, 2026 1 min read