r/LocalLLaMAがQwen3.5-9B quantをKLDで並べ直す、勘ではなく分布のズレで選ぼうという話

r/LocalLLaMAではquantization比較の投稿自体は珍しくないが、多くは「自分の環境ではこれがよかった」という体感に寄りがちだ。今回のQwen3.5-9B投稿が伸びたのは、その判断をもう少し測定可能な形に寄せたからだと思う。投稿者はcommunity GGUF quantをBF16 baselineとのmean KLDで比較し、どのファイルが元モデルの分布からどれだけ離れるかを軸に並べ直した。subredditの関心が高かったのもそこだ。どのrepoが有名かではなく、どのquantが元の分布をより壊さないのかを知りたかったわけだ。

投稿のロジックもわかりやすい。perplexityは特定の評価セットに依存しやすく、ノイズも入りやすい。一方でKLDはbaseline distributionと直接比較するので、information lossをより素直に見やすいという説明だ。ランキング表ではQ8_0系がfaithfulness上位を占める。eaddarioのQ8_0はKLD 0.001198、unslothのUD-Q8_K_XLは0.001243、bartowskiのQ8_0は0.001405という並びだ。ただし、サイズも込みのefficiency rankingにすると景色が変わり、IQ4_XS、IQ4_NL、Q5_K_Sあたりが現実的な落としどころとして浮上する。つまり、最も原型に近いquantと、最も扱いやすいquantは必ずしも同じではない。

この投稿が便利なのは再現情報まで含めている点だ。評価用datasetの gist、103 chunks at -c 512、使った ik_llama.cpp build、NVIDIA driver 595.97まで記してある。そのためコメント欄も「Gemma 4でも見たい」「MoEも知りたい」「i1 quantも追加してほしい」と、次の比較軸を自然に求める流れになっていた。これは単なる画像投稿ではなく、再利用できるbenchmark scaffoldとして受け取られている証拠だ。

実務的な読み方をすると、最小のdriftが欲しいならQ8_0系がまだ強い。けれどメモリ制約込みで考えるなら、IQ4やQ5の一部はもっと真面目に候補へ入る。元の議論は r/LocalLLaMA にある。このスレッドの熱量は、「local LLMでもそろそろ folklore ではなく measurement culture でquantを選びたい」というコミュニティの空気そのものだ。

r/LocalLLaMAがQwen3.5-9B quantをKLDで並べ直す、勘ではなく分布のズレで選ぼうという話

Related Articles

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

Qwen3.5-122B-A10B Uncensored (Aggressive) のGGUF公開、新しい K_P quants を追加

r/LocalLLaMAでQwen3.5-27B Q4量子化を比較、KLDと容量のトレードオフを可視化

Comments (0)

Leave a Comment

Related Articles

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい
LLM Reddit Apr 16, 2026 1 min read

Qwen3.5-122B-A10B Uncensored (Aggressive) のGGUF公開、新しい K_P quants を追加
LLM Reddit Mar 23, 2026 1 min read

r/LocalLLaMAでQwen3.5-27B Q4量子化を比較、KLDと容量のトレードオフを可視化
LLM Reddit Mar 4, 2026 1 min read