r/LocalLLaMAでQwen3.5 Dynamic GGUF更新を検証、150回超KLDとtensor別量子化が論点
Original: New Qwen3.5-35B-A3B Unsloth Dynamic GGUFs + Benchmarks View original →
コミュニティの状況
Reddit投稿 r/LocalLLaMA #1rgel19 は 494 upvotes、200 comments。内容はQwen3.5-35B-A3B向けDynamic GGUF更新と、そのbenchmark結果の共有で、ローカル推論ユーザー向けに実運用上のquant選択を議論するものだった。
投稿で示された主張
投稿者は、150回超のKL Divergence評価、約9TBのGGUF関連artifact公開、そしてquant uploader全体に影響したtool-calling chat template bug修正を報告している。さらに、MXFP4を多くの変種でretireし、一部layerのみ例外運用にする方針も提示された。
加えて、tensor sensitivityの差が強調された。攻めたquantizationでも比較的安定なtensorがある一方、attention系やhybrid構造の一部経路は品質低下リスクが高いという観察である。投稿内では複数uploaderの比較と実験リンクが提供されている。
コメントから見える評価軸
上位コメントは、単なる称賛より再現性の議論が中心だった。quantごとのKLD/PPL公開を標準化すべきという意見が多く、手法公開そのものがコミュニティ価値として評価された。一方で、KLD/PPLだけでは不十分で、downstream taskでの検証を必須にすべきという指摘も繰り返された。
このバランスが重要で、議論は「最速・最小の数字競争」より「再現可能な評価文化」に向かっている。推論として、local model運用の成熟は指標の透明性と検証設計の質に依存している。
実務上の示唆
ローカルLLM運用では、単一メトリクスでquantを固定せず、KLD/PPL、tensor別感度、実タスク評価を組み合わせるのが現実的だ。今回のr/LocalLLaMA議論は、証拠付きリリースノートが増えるほど、ハードウェア別の意思決定がしやすくなることを示している。
出典: Reddit投稿、投稿内リンク資料。
Related Articles
LocalLLaMAが反応したのは単なる数値比較ではなかった。多くのローカル推論ユーザーが事実上の常識として使っていたルールを崩し、とくにGemma系でモデル差が大きいことを示したからだ。2026年4月25日時点でスレッドは324ポイント、58コメントだった。
LocalLLaMAがこの投稿を評価したのは、複雑なGGUF選択を測れるtradeoffに変えたからだ。投稿はcommunity Qwen3.5-9B quantsをBF16 baselineに対するmean KLDで比較し、コメント欄はchart表現、Gemma 4、Thireus quants、long-context testingまで求めた。
r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。
Comments (0)
No comments yet. Be the first to comment!