Qwen3.5-9B quant 고르기, LocalLLaMA는 감이 아니라 KLD 표를 원했다
Original: Updated Qwen3.5-9B Quantization Comparison View original →
LocalLLaMA의 Qwen3.5-9B quantization comparison은 아주 현실적인 문제를 건드렸기 때문에 반응을 얻었다. GGUF file은 너무 많고, 이름만으로는 무엇을 골라야 할지 알기 어렵다. 이 글은 인기 있는 upload를 고르라고 말하는 대신, community quants를 BF16 baseline과 mean KLD, 즉 KL Divergence로 비교했다. 글쓴이의 설명대로라면 KLD가 낮을수록 quantized model의 probability distribution이 original weights의 distribution에 더 가깝다.
이 metric 선택이 thread에 기술적 무게를 줬다. Perplexity는 dataset에 민감하고 noise가 있다. 어떤 test slice에서는 우연히 좋아질 수도 있어서 model이 얼마나 drift했는지 직접 보여주지 못할 때가 있다. KLD가 모든 것을 해결하는 metric은 아니지만, quantized distribution이 baseline에서 얼마나 멀어졌는지 직접 묻는다. Q8_0, Q4 variant, i-quant, publisher별 build 사이에서 고르는 local user에게는 file size만 보는 것보다 나은 출발점이다.
표에서는 여러 Q8 계열 option이 상위에 있었고, KLD score 0.01 아래의 entry들이 강조됐다. 댓글은 이를 최종 답이 아니라 공통 기준점처럼 다뤘다. 어떤 사용자는 Gemma 4와 더 큰 Qwen model도 같은 방식으로 보고 싶다고 했고, 다른 사용자는 publisher별 marker shape를 달리해 chart를 읽기 쉽게 만들자고 했다. 긴 기술 댓글은 efficiency 계산을 칭찬하면서도, long-context에서는 quantization 손상이 다르게 나타날 수 있으니 near-full context length에서도 KLD를 재야 한다고 제안했다.
이 thread의 에너지는 LocalLLaMA가 감각적인 model 추천에서 반복 가능한 측정으로 옮겨가고 있다는 데 있다. 글은 하나의 universal best quant를 정하지 않는다. 대신 file size, BPW, KLD, PPL, memory fit, workload 사이의 tradeoff를 이야기할 기준을 준다. Local inference에서 이것은 filename을 따라가는 것과 실제 deployment 선택을 하는 것의 차이다.
Related Articles
r/LocalLLaMA에서 이 비교가 먹힌 이유는 GGUF 파일 선택을 감이나 평판이 아니라 분포 차이로 설명했기 때문이다. 작성자는 BF16 baseline 대비 mean KLD를 기준으로 community quants를 정렬했고, Q8_0 계열은 fidelity 쪽 상단에, 여러 IQ4와 Q5 계열은 size 대 fidelity 균형 구간에 배치했다.
r/LocalLLaMA가 Qwen3.6 release 자체보다 GGUF quant 선택과 CUDA 버그에 더 크게 반응했다. Unsloth의 benchmark post는 KLD, disk space, 4bit gibberish, CUDA 13.1/13.3 같은 실제 실행 조건을 전면에 올렸다.
r/LocalLLaMA 게시물은 Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF와 새 K_P quants를 소개한다. 작성자는 0/465 refusals와 zero capability loss를 주장했지만, 이는 작성자 본인 테스트에 기반한 self-reported claim이다.
Comments (0)
No comments yet. Be the first to comment!