r/LocalLLaMAで進むQwen3.5実用プリセットの整理
Original: Qwen3.5 Best Parameters Collection View original →
2026年3月20日、r/LocalLLaMA の「Qwen3.5 Best Parameters Collection」スレッドは123 points、47 commentsを集めた。タイミングが面白いのは、Qwen3.5 の公開から数週間が経ち、quantization や runtime、sampler setting が少しずつ落ち着き始めた一方で、まだ完全な consensus には至っていない時期だからだ。元投稿は use case ごとの実用 preset を求めつつ、Qwen3.5-35B-A3B を llama.cpp v8400 で回す際の出発点として temp 0.7、top-p 0.8、top-k 20、presence penalty 1.5、repeat penalty 1.0、reasoning budget 1000 を共有していた。用途は general chat、non-coding 寄りだった.
スレッドで実際に集まった設定の傾向
- 多くのコメントは、Reddit 的な folklore より official Qwen model card の推奨値を baseline にしたほうが安全だと述べていた.
- 複数のユーザーが thinking coding、thinking general、instruct creative writing、instruct coding のように、用途別の preset を分けて共有した.
- reasoning budget は 4096 から 16384 まで大きく幅があり、document length や長い chain-of-thought をどこまで許容するかで調整されていた.
- tool-calling workload では non-thinking mode とやや高めの repeat penalty のほうが良いという報告もあった。長い reasoning trace は遅くなる割に効果が薄いという見方だ.
興味深いのは、どの単一パラメータが正しいかより、性能の見方そのものが変わっていることだ。LocalLLaMA community は inference policy を model quality の一部として扱い始めている。同じ checkpoint でも、coding、chat、tool use、long-document parsing のどれに使うかで、冗長にも有能にも感じられる。つまり議論は「どの model が勝つか」から、「この model を実用的にする operating profile は何か」へ移っている.
このスレッドが持つ意味
open-weight ecosystem はたいてい同じ成熟の流れをたどる。最初は benchmark の強さが注目され、次に quant quality や runtime support、context length が論点になる。その次に、users は default sampler setting が実際の体感性能をかなり覆い隠していることに気づく。このスレッドはまさにその第三段階にある。universal preset を与えるわけではないが、official setting を起点にして task type と reasoning budget に応じて分岐させる、より disciplined な合意が形成されつつあることを示している.
これは consumer GPU 上で local LLM stack を評価する人にとってかなり実用的だ。general chat では「考えすぎる」と感じる model でも、sampler と budget を調整すれば coding や document analysis では十分に強力になりうる。このスレッドは leaderboard update というより、Qwen3.5 が weights だけでなく運用方法まで含めて評価される段階に入ったことを示すサインだ。
Related Articles
r/LocalLLaMAで、CPUにoffloadした重みを先読みしてprompt処理速度の低下を抑えるllama.cpp実験が話題になった。長いcontextでのhybrid CPU/GPU推論のボトルネックを減らす狙いだ。
LocalLLaMAがすぐ反応したのは、体感に直結する話だったからだ。小さなGBNF制約だけでQwen3.6のreasoning dragを減らし、長い作業のトークン浪費と時間をまとめて削ったという主張が出た。
llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。
Comments (0)
No comments yet. Be the first to comment!