Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい
Original: Updated Qwen3.5-9B Quantization Comparison View original →
LocalLLaMAのQwen3.5-9B quantization comparisonが刺さったのは、とても実用的な問題を扱ったからだ。GGUF fileは多すぎて、名前だけでは何を選ぶべきか分かりにくい。この投稿は人気のuploadを勧めるのではなく、community quantsをBF16 baselineに対するmean KLD、つまりKL Divergenceで比較した。投稿者の説明では、KLDが低いほどquantized modelのprobability distributionがoriginal weightsのdistributionに近い。
このmetric選びがthreadに技術的な重みを与えた。Perplexityはdatasetに左右されやすく、noiseもある。test slice上で偶然よく見えることもあり、modelがどれだけdriftしたかを直接示さない場合がある。KLDは万能ではないが、quantized distributionがbaselineからどれだけ離れたかを正面から見る。Q8_0、Q4 variants、i-quants、publisher別buildの間で迷うlocal userには、file sizeだけを見るよりよい出発点になる。
表ではQ8系のoptionが上位に並び、KLD score 0.01未満のentryが強調されていた。コメント欄はそれを最終回答ではなく、共有できる基準として扱った。Gemma 4やより大きいQwen modelでも見たいという声があり、chartにpublisher別のmarker shapeを入れて読みやすくする提案もあった。長めの技術コメントはefficiency calculationを評価しつつ、long-contextではquantizationの悪影響が別の形で出るため、near-full context lengthでもKLDを測ってほしいと求めた。
このthreadの熱量は、LocalLLaMAが感覚的なmodel recommendationからrepeatable measurementへ移っているところにある。投稿はuniversal best quantを決めるものではない。file size、BPW、KLD、PPL、memory fit、workloadのtradeoffを話すための基準を与えている。Local inferenceでは、それがfilenameを追うことと、根拠あるdeployment choiceをすることの差になる。
Related Articles
r/LocalLLaMA에서 이 비교가 먹힌 이유는 GGUF 파일 선택을 감이나 평판이 아니라 분포 차이로 설명했기 때문이다. 작성자는 BF16 baseline 대비 mean KLD를 기준으로 community quants를 정렬했고, Q8_0 계열은 fidelity 쪽 상단에, 여러 IQ4와 Q5 계열은 size 대 fidelity 균형 구간에 배치했다.
r/LocalLLaMA 게시물은 Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF와 새 K_P quants를 소개한다. 작성자는 0/465 refusals와 zero capability loss를 주장했지만, 이는 작성자 본인 테스트에 기반한 self-reported claim이다.
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.