Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい
Original: Updated Qwen3.5-9B Quantization Comparison View original →
LocalLLaMAのQwen3.5-9B quantization comparisonが刺さったのは、とても実用的な問題を扱ったからだ。GGUF fileは多すぎて、名前だけでは何を選ぶべきか分かりにくい。この投稿は人気のuploadを勧めるのではなく、community quantsをBF16 baselineに対するmean KLD、つまりKL Divergenceで比較した。投稿者の説明では、KLDが低いほどquantized modelのprobability distributionがoriginal weightsのdistributionに近い。
このmetric選びがthreadに技術的な重みを与えた。Perplexityはdatasetに左右されやすく、noiseもある。test slice上で偶然よく見えることもあり、modelがどれだけdriftしたかを直接示さない場合がある。KLDは万能ではないが、quantized distributionがbaselineからどれだけ離れたかを正面から見る。Q8_0、Q4 variants、i-quants、publisher別buildの間で迷うlocal userには、file sizeだけを見るよりよい出発点になる。
表ではQ8系のoptionが上位に並び、KLD score 0.01未満のentryが強調されていた。コメント欄はそれを最終回答ではなく、共有できる基準として扱った。Gemma 4やより大きいQwen modelでも見たいという声があり、chartにpublisher別のmarker shapeを入れて読みやすくする提案もあった。長めの技術コメントはefficiency calculationを評価しつつ、long-contextではquantizationの悪影響が別の形で出るため、near-full context lengthでもKLDを測ってほしいと求めた。
このthreadの熱量は、LocalLLaMAが感覚的なmodel recommendationからrepeatable measurementへ移っているところにある。投稿はuniversal best quantを決めるものではない。file size、BPW、KLD、PPL、memory fit、workloadのtradeoffを話すための基準を与えている。Local inferenceでは、それがfilenameを追うことと、根拠あるdeployment choiceをすることの差になる。
Related Articles
r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。
r/LocalLLaMAが見ていたのは、Qwen3.6のrelease headlineではなく、どのGGUF quantを実機で使うべきかだった。Unslothのbenchmark postは、KLD、disk space、CUDA 13.2のgibberish問題、CUDA 13.1/13.3対応へ議論を引き寄せた。
r/LocalLLaMA の投稿は、Qwen3.5-122B-A10B Uncensored (Aggressive) の GGUF release と新しい K_P quants を紹介している。0/465 refusals や zero capability loss などの数値は投稿者自身の説明であり、独立検証ではない。
Comments (0)
No comments yet. Be the first to comment!