r/LocalLLaMAがQwen3.5-9B quantをKLDで並べ直す、勘ではなく分布のズレで選ぼうという話
Original: Updated Qwen3.5-9B Quantization Comparison View original →
r/LocalLLaMAではquantization比較の投稿自体は珍しくないが、多くは「自分の環境ではこれがよかった」という体感に寄りがちだ。今回のQwen3.5-9B投稿が伸びたのは、その判断をもう少し測定可能な形に寄せたからだと思う。投稿者はcommunity GGUF quantをBF16 baselineとのmean KLDで比較し、どのファイルが元モデルの分布からどれだけ離れるかを軸に並べ直した。subredditの関心が高かったのもそこだ。どのrepoが有名かではなく、どのquantが元の分布をより壊さないのかを知りたかったわけだ。
投稿のロジックもわかりやすい。perplexityは特定の評価セットに依存しやすく、ノイズも入りやすい。一方でKLDはbaseline distributionと直接比較するので、information lossをより素直に見やすいという説明だ。ランキング表ではQ8_0系がfaithfulness上位を占める。eaddarioのQ8_0はKLD 0.001198、unslothのUD-Q8_K_XLは0.001243、bartowskiのQ8_0は0.001405という並びだ。ただし、サイズも込みのefficiency rankingにすると景色が変わり、IQ4_XS、IQ4_NL、Q5_K_Sあたりが現実的な落としどころとして浮上する。つまり、最も原型に近いquantと、最も扱いやすいquantは必ずしも同じではない。
この投稿が便利なのは再現情報まで含めている点だ。評価用datasetの gist、103 chunks at -c 512、使った ik_llama.cpp build、NVIDIA driver 595.97まで記してある。そのためコメント欄も「Gemma 4でも見たい」「MoEも知りたい」「i1 quantも追加してほしい」と、次の比較軸を自然に求める流れになっていた。これは単なる画像投稿ではなく、再利用できるbenchmark scaffoldとして受け取られている証拠だ。
実務的な読み方をすると、最小のdriftが欲しいならQ8_0系がまだ強い。けれどメモリ制約込みで考えるなら、IQ4やQ5の一部はもっと真面目に候補へ入る。元の議論は r/LocalLLaMA にある。このスレッドの熱量は、「local LLMでもそろそろ folklore ではなく measurement culture でquantを選びたい」というコミュニティの空気そのものだ。
Related Articles
r/LocalLLaMA の投稿は、Qwen3.5-122B-A10B Uncensored (Aggressive) の GGUF release と新しい K_P quants を紹介している。0/465 refusals や zero capability loss などの数値は投稿者自身の説明であり、独立検証ではない。
LocalLLaMAの投稿は、最近の llama.cpp 修正により Gemma 4 GGUF を再取得する価値があると指摘し、ローカル推論利用者が見るべき変更点をまとめている。
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
Comments (0)
No comments yet. Be the first to comment!