Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

LocalLLaMAのQwen3.5-9B quantization comparisonが刺さったのは、とても実用的な問題を扱ったからだ。GGUF fileは多すぎて、名前だけでは何を選ぶべきか分かりにくい。この投稿は人気のuploadを勧めるのではなく、community quantsをBF16 baselineに対するmean KLD、つまりKL Divergenceで比較した。投稿者の説明では、KLDが低いほどquantized modelのprobability distributionがoriginal weightsのdistributionに近い。

このmetric選びがthreadに技術的な重みを与えた。Perplexityはdatasetに左右されやすく、noiseもある。test slice上で偶然よく見えることもあり、modelがどれだけdriftしたかを直接示さない場合がある。KLDは万能ではないが、quantized distributionがbaselineからどれだけ離れたかを正面から見る。Q8_0、Q4 variants、i-quants、publisher別buildの間で迷うlocal userには、file sizeだけを見るよりよい出発点になる。

表ではQ8系のoptionが上位に並び、KLD score 0.01未満のentryが強調されていた。コメント欄はそれを最終回答ではなく、共有できる基準として扱った。Gemma 4やより大きいQwen modelでも見たいという声があり、chartにpublisher別のmarker shapeを入れて読みやすくする提案もあった。長めの技術コメントはefficiency calculationを評価しつつ、long-contextではquantizationの悪影響が別の形で出るため、near-full context lengthでもKLDを測ってほしいと求めた。

このthreadの熱量は、LocalLLaMAが感覚的なmodel recommendationからrepeatable measurementへ移っているところにある。投稿はuniversal best quantを決めるものではない。file size、BPW、KLD、PPL、memory fit、workloadのtradeoffを話すための基準を与えている。Local inferenceでは、それがfilenameを追うことと、根拠あるdeployment choiceをすることの差になる。

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

Related Articles

Qwen3.5-122B-A10B Uncensored (Aggressive) のGGUF公開、新しい K_P quants を追加

r/LocalLLaMAでQwen3.5-27B Q4量子化を比較、KLDと容量のトレードオフを可視化

Qwen3.6の熱気は、r/LocalLLaMAでGGUF運用チェックリストになった

Related Articles

Qwen3.5-122B-A10B Uncensored (Aggressive) のGGUF公開、新しい K_P quants を追加
LLM Reddit Mar 23, 2026 1 min read

r/LocalLLaMAでQwen3.5-27B Q4量子化を比較、KLDと容量のトレードオフを可視化
LLM Reddit Mar 4, 2026 1 min read

Qwen3.6の熱気は、r/LocalLLaMAでGGUF運用チェックリストになった
LLM Reddit Apr 18, 2026 1 min read