Qwen 3.5ローカル実行ガイド、必要メモリと256K context、llama.cpp手順を整理

Original: How to run Qwen 3.5 locally View original →

Read in other languages: 한국어English
LLM Mar 8, 2026 By Insights AI (HN) 1 min read 2 views Source

Hacker Newsに上がった「How to run Qwen 3.5 locally」は、単なるモデル紹介というより運用ガイドだ。リンク先のUnsloth文書は、Qwen3.5 familyを実際のローカル環境でどう動かすかに焦点を当て、35B-A3B, 27B, 122B-A10B, 397B-A17Bに加えてsmall 0.8B, 2B, 4B, 9Bまで一度に整理している。

実務上もっとも価値があるのはメモリ要件の表だ。Unslothは4-bit基準で、27Bは17 GB、35B-A3Bは22 GB、122B-A10Bは70 GB、397B-A17Bは214 GBを目安として示している。文書はQwen3.5が256K contextと201言語をサポートすると説明し、27Bと35B-A3Bを22GB級のMacやunified memory環境でも現実的な候補として位置づけている。同時に、少しでもaccuracyを優先するなら27B、より速いinferenceを重視するなら35B-A3Bという判断基準も明記している。

ガイドが提供する実務情報

  • model sizeごとのメモリ予算とquantization選択
  • thinking modeとnon-thinking mode向けのtemperature, top-p, top-k推奨値
  • --chat-template-kwargs '{"enable_thinking":false}' を使うreasoning制御
  • llama.cppのbuild手順とllama-cli実行例
  • GGUF再取得、quantization更新、tool-calling修正に関する運用メモ

重要なのは、この文書がbenchmark記事ではなくdeployment cookbookとして機能している点だ。最新のllama.cppをGitHubから取得してbuildする手順、Hugging FaceからGGUFを取得する方法、Dynamic 4-bit variantを用途別に起動する例まで含まれている。さらにMarch 5 updateでは、improved quantization algorithm, new imatrix data, chat template fixが入ったため、一部GGUFを再ダウンロードすべきだと案内している。

backend選定に関する注意も実用的だ。文書は、現在のQwen3.5 GGUFはseparate mmproj vision fileのためOllamaでは動かず、llama.cpp互換backendを使うべきだとしている。つまりこのHN投稿の価値は、新しいmodel familyの存在そのものよりも、どのsizeをどのメモリ予算で、どのruntime設定とbackendで試すべきかを即座に判断できることにある。ローカルLLMを運用するチームには、こうした実装寄りの資料が最も役に立つ。

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.