r/LocalLLaMAがQwen3.5-9B quantをKLDで並べ直す、勘ではなく分布のズレで選ぼうという話

Original: Updated Qwen3.5-9B Quantization Comparison View original →

Read in other languages: 한국어English
LLM Apr 14, 2026 By Insights AI (Reddit) 1 min read Source

r/LocalLLaMAではquantization比較の投稿自体は珍しくないが、多くは「自分の環境ではこれがよかった」という体感に寄りがちだ。今回のQwen3.5-9B投稿が伸びたのは、その判断をもう少し測定可能な形に寄せたからだと思う。投稿者はcommunity GGUF quantをBF16 baselineとのmean KLDで比較し、どのファイルが元モデルの分布からどれだけ離れるかを軸に並べ直した。subredditの関心が高かったのもそこだ。どのrepoが有名かではなく、どのquantが元の分布をより壊さないのかを知りたかったわけだ。

投稿のロジックもわかりやすい。perplexityは特定の評価セットに依存しやすく、ノイズも入りやすい。一方でKLDはbaseline distributionと直接比較するので、information lossをより素直に見やすいという説明だ。ランキング表ではQ8_0系がfaithfulness上位を占める。eaddarioのQ8_0はKLD 0.001198、unslothのUD-Q8_K_XLは0.001243、bartowskiのQ8_0は0.001405という並びだ。ただし、サイズも込みのefficiency rankingにすると景色が変わり、IQ4_XS、IQ4_NL、Q5_K_Sあたりが現実的な落としどころとして浮上する。つまり、最も原型に近いquantと、最も扱いやすいquantは必ずしも同じではない。

この投稿が便利なのは再現情報まで含めている点だ。評価用datasetの gist、103 chunks at -c 512、使った ik_llama.cpp build、NVIDIA driver 595.97まで記してある。そのためコメント欄も「Gemma 4でも見たい」「MoEも知りたい」「i1 quantも追加してほしい」と、次の比較軸を自然に求める流れになっていた。これは単なる画像投稿ではなく、再利用できるbenchmark scaffoldとして受け取られている証拠だ。

実務的な読み方をすると、最小のdriftが欲しいならQ8_0系がまだ強い。けれどメモリ制約込みで考えるなら、IQ4やQ5の一部はもっと真面目に候補へ入る。元の議論は r/LocalLLaMA にある。このスレッドの熱量は、「local LLMでもそろそろ folklore ではなく measurement culture でquantを選びたい」というコミュニティの空気そのものだ。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.