r/LocalLLaMAで進むQwen3.5実用プリセットの整理

Original: Qwen3.5 Best Parameters Collection View original →

Read in other languages: 한국어English
LLM Mar 20, 2026 By Insights AI (Reddit) 1 min read Source

2026年3月20日、r/LocalLLaMA の「Qwen3.5 Best Parameters Collection」スレッドは123 points、47 commentsを集めた。タイミングが面白いのは、Qwen3.5 の公開から数週間が経ち、quantization や runtime、sampler setting が少しずつ落ち着き始めた一方で、まだ完全な consensus には至っていない時期だからだ。元投稿は use case ごとの実用 preset を求めつつ、Qwen3.5-35B-A3B を llama.cpp v8400 で回す際の出発点として temp 0.7、top-p 0.8、top-k 20、presence penalty 1.5、repeat penalty 1.0、reasoning budget 1000 を共有していた。用途は general chat、non-coding 寄りだった.

スレッドで実際に集まった設定の傾向

  • 多くのコメントは、Reddit 的な folklore より official Qwen model card の推奨値を baseline にしたほうが安全だと述べていた.
  • 複数のユーザーが thinking coding、thinking general、instruct creative writing、instruct coding のように、用途別の preset を分けて共有した.
  • reasoning budget は 4096 から 16384 まで大きく幅があり、document length や長い chain-of-thought をどこまで許容するかで調整されていた.
  • tool-calling workload では non-thinking mode とやや高めの repeat penalty のほうが良いという報告もあった。長い reasoning trace は遅くなる割に効果が薄いという見方だ.

興味深いのは、どの単一パラメータが正しいかより、性能の見方そのものが変わっていることだ。LocalLLaMA community は inference policy を model quality の一部として扱い始めている。同じ checkpoint でも、coding、chat、tool use、long-document parsing のどれに使うかで、冗長にも有能にも感じられる。つまり議論は「どの model が勝つか」から、「この model を実用的にする operating profile は何か」へ移っている.

このスレッドが持つ意味

open-weight ecosystem はたいてい同じ成熟の流れをたどる。最初は benchmark の強さが注目され、次に quant quality や runtime support、context length が論点になる。その次に、users は default sampler setting が実際の体感性能をかなり覆い隠していることに気づく。このスレッドはまさにその第三段階にある。universal preset を与えるわけではないが、official setting を起点にして task type と reasoning budget に応じて分岐させる、より disciplined な合意が形成されつつあることを示している.

これは consumer GPU 上で local LLM stack を評価する人にとってかなり実用的だ。general chat では「考えすぎる」と感じる model でも、sampler と budget を調整すれば coding や document analysis では十分に強力になりうる。このスレッドは leaderboard update というより、Qwen3.5 が weights だけでなく運用方法まで含めて評価される段階に入ったことを示すサインだ。

出典: r/LocalLLaMA discussion · Unsloth Qwen3.5 documentation

Share: Long

Related Articles

LLM Reddit 5d ago 1 min read

r/LocalLLaMAのfield reportは、非常に具体的なlocal inference workloadをthroughput重視で調整した事例を示した。投稿者はQwen 3.5 27Bでmarkdown文書を分類しながら約2,000 tokens per secondを記録したと述べ、commentでは実務的な最適化論点が追加された。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.