Qwen 3.5ローカル実行ガイド、必要メモリと256K context、llama.cpp手順を整理
Original: How to run Qwen 3.5 locally View original →
Hacker Newsに上がった「How to run Qwen 3.5 locally」は、単なるモデル紹介というより運用ガイドだ。リンク先のUnsloth文書は、Qwen3.5 familyを実際のローカル環境でどう動かすかに焦点を当て、35B-A3B, 27B, 122B-A10B, 397B-A17Bに加えてsmall 0.8B, 2B, 4B, 9Bまで一度に整理している。
実務上もっとも価値があるのはメモリ要件の表だ。Unslothは4-bit基準で、27Bは17 GB、35B-A3Bは22 GB、122B-A10Bは70 GB、397B-A17Bは214 GBを目安として示している。文書はQwen3.5が256K contextと201言語をサポートすると説明し、27Bと35B-A3Bを22GB級のMacやunified memory環境でも現実的な候補として位置づけている。同時に、少しでもaccuracyを優先するなら27B、より速いinferenceを重視するなら35B-A3Bという判断基準も明記している。
ガイドが提供する実務情報
- model sizeごとのメモリ予算とquantization選択
- thinking modeとnon-thinking mode向けのtemperature, top-p, top-k推奨値
--chat-template-kwargs '{"enable_thinking":false}'を使うreasoning制御llama.cppのbuild手順とllama-cli実行例- GGUF再取得、quantization更新、tool-calling修正に関する運用メモ
重要なのは、この文書がbenchmark記事ではなくdeployment cookbookとして機能している点だ。最新のllama.cppをGitHubから取得してbuildする手順、Hugging FaceからGGUFを取得する方法、Dynamic 4-bit variantを用途別に起動する例まで含まれている。さらにMarch 5 updateでは、improved quantization algorithm, new imatrix data, chat template fixが入ったため、一部GGUFを再ダウンロードすべきだと案内している。
backend選定に関する注意も実用的だ。文書は、現在のQwen3.5 GGUFはseparate mmproj vision fileのためOllamaでは動かず、llama.cpp互換backendを使うべきだとしている。つまりこのHN投稿の価値は、新しいmodel familyの存在そのものよりも、どのsizeをどのメモリ予算で、どのruntime設定とbackendで試すべきかを即座に判断できることにある。ローカルLLMを運用するチームには、こうした実装寄りの資料が最も役に立つ。
Related Articles
高スコアのLocalLLaMA投稿では、16GBのM1 Pro上でQwen 3.5 9Bがmemory recallと基本的なtool callingを実運用向けにこなしつつ、creative reasoningでは依然としてfrontier modelに及ばなかったと報告された。
LocalLLaMAの投稿は、RX 9070 XT上でllama.cppの`--ubatch-size`を64まで下げたところ、Qwen3.5-27Bのprompt processingが大きく高速化したと報告した。重要なのは64が万能値だということではなく、prompt ingestionとtoken generationが`n_ubatch`に全く異なる反応を示しうる点だ。
r/LocalLLaMAでは、`llama.cpp` pull request #19504のmerge後にQwen3.5やQwen-Nextのtoken generationが改善したという報告が集まっている。PRは`GATED_DELTA_NET` opのCPU/CUDA実装を追加する。
Comments (0)
No comments yet. Be the first to comment!