r/LocalLLaMAで進むQwen3.5実用プリセットの整理

2026年3月20日、r/LocalLLaMA の「Qwen3.5 Best Parameters Collection」スレッドは123 points、47 commentsを集めた。タイミングが面白いのは、Qwen3.5 の公開から数週間が経ち、quantization や runtime、sampler setting が少しずつ落ち着き始めた一方で、まだ完全な consensus には至っていない時期だからだ。元投稿は use case ごとの実用 preset を求めつつ、Qwen3.5-35B-A3B を llama.cpp v8400 で回す際の出発点として temp 0.7、top-p 0.8、top-k 20、presence penalty 1.5、repeat penalty 1.0、reasoning budget 1000 を共有していた。用途は general chat、non-coding 寄りだった.

スレッドで実際に集まった設定の傾向

多くのコメントは、Reddit 的な folklore より official Qwen model card の推奨値を baseline にしたほうが安全だと述べていた.
複数のユーザーが thinking coding、thinking general、instruct creative writing、instruct coding のように、用途別の preset を分けて共有した.
reasoning budget は 4096 から 16384 まで大きく幅があり、document length や長い chain-of-thought をどこまで許容するかで調整されていた.
tool-calling workload では non-thinking mode とやや高めの repeat penalty のほうが良いという報告もあった。長い reasoning trace は遅くなる割に効果が薄いという見方だ.

興味深いのは、どの単一パラメータが正しいかより、性能の見方そのものが変わっていることだ。LocalLLaMA community は inference policy を model quality の一部として扱い始めている。同じ checkpoint でも、coding、chat、tool use、long-document parsing のどれに使うかで、冗長にも有能にも感じられる。つまり議論は「どの model が勝つか」から、「この model を実用的にする operating profile は何か」へ移っている.

このスレッドが持つ意味

open-weight ecosystem はたいてい同じ成熟の流れをたどる。最初は benchmark の強さが注目され、次に quant quality や runtime support、context length が論点になる。その次に、users は default sampler setting が実際の体感性能をかなり覆い隠していることに気づく。このスレッドはまさにその第三段階にある。universal preset を与えるわけではないが、official setting を起点にして task type と reasoning budget に応じて分岐させる、より disciplined な合意が形成されつつあることを示している.

これは consumer GPU 上で local LLM stack を評価する人にとってかなり実用的だ。general chat では「考えすぎる」と感じる model でも、sampler と budget を調整すれば coding や document analysis では十分に強力になりうる。このスレッドは leaderboard update というより、Qwen3.5 が weights だけでなく運用方法まで含めて評価される段階に入ったことを示すサインだ。

出典: r/LocalLLaMA discussion · Unsloth Qwen3.5 documentation

r/LocalLLaMAで進むQwen3.5実用プリセットの整理

スレッドで実際に集まった設定の傾向

このスレッドが持つ意味

Related Articles

LocalLLaMAで注目を集めた llama.cpp のCPU offload prefetch実験

Qwen3.6のトークン浪費を削るGBNF細工、LocalLLaMAが沸いた理由

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現

Comments (0)

Leave a Comment

Related Articles

LocalLLaMAで注目を集めた llama.cpp のCPU offload prefetch実験
LLM Reddit Mar 31, 2026 1 min read

Qwen3.6のトークン浪費を削るGBNF細工、LocalLLaMAが沸いた理由
LLM Reddit Apr 29, 2026 1 min read

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現
LLM Reddit May 6, 2026 1 min read