Skip to content
腐食中

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

Original: Updated Qwen3.5-9B Quantization Comparison View original →

Read in other languages: English
LLM Apr 16, 2026 By Insights AI (Reddit) 1 min read 17 views Source
This article is not available in your selected language. Showing the original version.

LocalLLaMAのQwen3.5-9B quantization comparisonが刺さったのは、とても実用的な問題を扱ったからだ。GGUF fileは多すぎて、名前だけでは何を選ぶべきか分かりにくい。この投稿は人気のuploadを勧めるのではなく、community quantsをBF16 baselineに対するmean KLD、つまりKL Divergenceで比較した。投稿者の説明では、KLDが低いほどquantized modelのprobability distributionがoriginal weightsのdistributionに近い。

このmetric選びがthreadに技術的な重みを与えた。Perplexityはdatasetに左右されやすく、noiseもある。test slice上で偶然よく見えることもあり、modelがどれだけdriftしたかを直接示さない場合がある。KLDは万能ではないが、quantized distributionがbaselineからどれだけ離れたかを正面から見る。Q8_0、Q4 variants、i-quants、publisher別buildの間で迷うlocal userには、file sizeだけを見るよりよい出発点になる。

表ではQ8系のoptionが上位に並び、KLD score 0.01未満のentryが強調されていた。コメント欄はそれを最終回答ではなく、共有できる基準として扱った。Gemma 4やより大きいQwen modelでも見たいという声があり、chartにpublisher別のmarker shapeを入れて読みやすくする提案もあった。長めの技術コメントはefficiency calculationを評価しつつ、long-contextではquantizationの悪影響が別の形で出るため、near-full context lengthでもKLDを測ってほしいと求めた。

このthreadの熱量は、LocalLLaMAが感覚的なmodel recommendationからrepeatable measurementへ移っているところにある。投稿はuniversal best quantを決めるものではない。file size、BPW、KLD、PPL、memory fit、workloadのtradeoffを話すための基準を与えている。Local inferenceでは、それがfilenameを追うことと、根拠あるdeployment choiceをすることの差になる。

Share: Long

Related Articles

LLM Reddit Apr 14, 2026 1 min read

r/LocalLLaMA에서 이 비교가 먹힌 이유는 GGUF 파일 선택을 감이나 평판이 아니라 분포 차이로 설명했기 때문이다. 작성자는 BF16 baseline 대비 mean KLD를 기준으로 community quants를 정렬했고, Q8_0 계열은 fidelity 쪽 상단에, 여러 IQ4와 Q5 계열은 size 대 fidelity 균형 구간에 배치했다.