Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

Original: Updated Qwen3.5-9B Quantization Comparison View original →

Read in other languages: 한국어English
LLM Apr 16, 2026 By Insights AI (Reddit) 1 min read 1 views Source

LocalLLaMAのQwen3.5-9B quantization comparisonが刺さったのは、とても実用的な問題を扱ったからだ。GGUF fileは多すぎて、名前だけでは何を選ぶべきか分かりにくい。この投稿は人気のuploadを勧めるのではなく、community quantsをBF16 baselineに対するmean KLD、つまりKL Divergenceで比較した。投稿者の説明では、KLDが低いほどquantized modelのprobability distributionがoriginal weightsのdistributionに近い。

このmetric選びがthreadに技術的な重みを与えた。Perplexityはdatasetに左右されやすく、noiseもある。test slice上で偶然よく見えることもあり、modelがどれだけdriftしたかを直接示さない場合がある。KLDは万能ではないが、quantized distributionがbaselineからどれだけ離れたかを正面から見る。Q8_0、Q4 variants、i-quants、publisher別buildの間で迷うlocal userには、file sizeだけを見るよりよい出発点になる。

表ではQ8系のoptionが上位に並び、KLD score 0.01未満のentryが強調されていた。コメント欄はそれを最終回答ではなく、共有できる基準として扱った。Gemma 4やより大きいQwen modelでも見たいという声があり、chartにpublisher別のmarker shapeを入れて読みやすくする提案もあった。長めの技術コメントはefficiency calculationを評価しつつ、long-contextではquantizationの悪影響が別の形で出るため、near-full context lengthでもKLDを測ってほしいと求めた。

このthreadの熱量は、LocalLLaMAが感覚的なmodel recommendationからrepeatable measurementへ移っているところにある。投稿はuniversal best quantを決めるものではない。file size、BPW、KLD、PPL、memory fit、workloadのtradeoffを話すための基準を与えている。Local inferenceでは、それがfilenameを追うことと、根拠あるdeployment choiceをすることの差になる。

Share: Long

Related Articles

LLM Reddit 4d ago 1 min read

r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.