Qwen 3.5ローカル実行ガイド、必要メモリと256K context、llama.cpp手順を整理
Original: How to run Qwen 3.5 locally View original →
Hacker Newsに上がった「How to run Qwen 3.5 locally」は、単なるモデル紹介というより運用ガイドだ。リンク先のUnsloth文書は、Qwen3.5 familyを実際のローカル環境でどう動かすかに焦点を当て、35B-A3B, 27B, 122B-A10B, 397B-A17Bに加えてsmall 0.8B, 2B, 4B, 9Bまで一度に整理している。
実務上もっとも価値があるのはメモリ要件の表だ。Unslothは4-bit基準で、27Bは17 GB、35B-A3Bは22 GB、122B-A10Bは70 GB、397B-A17Bは214 GBを目安として示している。文書はQwen3.5が256K contextと201言語をサポートすると説明し、27Bと35B-A3Bを22GB級のMacやunified memory環境でも現実的な候補として位置づけている。同時に、少しでもaccuracyを優先するなら27B、より速いinferenceを重視するなら35B-A3Bという判断基準も明記している。
ガイドが提供する実務情報
- model sizeごとのメモリ予算とquantization選択
- thinking modeとnon-thinking mode向けのtemperature, top-p, top-k推奨値
--chat-template-kwargs '{"enable_thinking":false}'を使うreasoning制御llama.cppのbuild手順とllama-cli実行例- GGUF再取得、quantization更新、tool-calling修正に関する運用メモ
重要なのは、この文書がbenchmark記事ではなくdeployment cookbookとして機能している点だ。最新のllama.cppをGitHubから取得してbuildする手順、Hugging FaceからGGUFを取得する方法、Dynamic 4-bit variantを用途別に起動する例まで含まれている。さらにMarch 5 updateでは、improved quantization algorithm, new imatrix data, chat template fixが入ったため、一部GGUFを再ダウンロードすべきだと案内している。
backend選定に関する注意も実用的だ。文書は、現在のQwen3.5 GGUFはseparate mmproj vision fileのためOllamaでは動かず、llama.cpp互換backendを使うべきだとしている。つまりこのHN投稿の価値は、新しいmodel familyの存在そのものよりも、どのsizeをどのメモリ予算で、どのruntime設定とbackendで試すべきかを即座に判断できることにある。ローカルLLMを運用するチームには、こうした実装寄りの資料が最も役に立つ。
Related Articles
r/LocalLLaMAで、CPUにoffloadした重みを先読みしてprompt処理速度の低下を抑えるllama.cpp実験が話題になった。長いcontextでのhybrid CPU/GPU推論のボトルネックを減らす狙いだ。
LocalLLaMAがこの投稿を評価したのは、複雑なGGUF選択を測れるtradeoffに変えたからだ。投稿はcommunity Qwen3.5-9B quantsをBF16 baselineに対するmean KLDで比較し、コメント欄はchart表現、Gemma 4、Thireus quants、long-context testingまで求めた。
r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。
Comments (0)
No comments yet. Be the first to comment!