Qwen3.5-9B quant 고르기, LocalLLaMA는 감이 아니라 KLD 표를 원했다

LocalLLaMA의 Qwen3.5-9B quantization comparison은 아주 현실적인 문제를 건드렸기 때문에 반응을 얻었다. GGUF file은 너무 많고, 이름만으로는 무엇을 골라야 할지 알기 어렵다. 이 글은 인기 있는 upload를 고르라고 말하는 대신, community quants를 BF16 baseline과 mean KLD, 즉 KL Divergence로 비교했다. 글쓴이의 설명대로라면 KLD가 낮을수록 quantized model의 probability distribution이 original weights의 distribution에 더 가깝다.

이 metric 선택이 thread에 기술적 무게를 줬다. Perplexity는 dataset에 민감하고 noise가 있다. 어떤 test slice에서는 우연히 좋아질 수도 있어서 model이 얼마나 drift했는지 직접 보여주지 못할 때가 있다. KLD가 모든 것을 해결하는 metric은 아니지만, quantized distribution이 baseline에서 얼마나 멀어졌는지 직접 묻는다. Q8_0, Q4 variant, i-quant, publisher별 build 사이에서 고르는 local user에게는 file size만 보는 것보다 나은 출발점이다.

표에서는 여러 Q8 계열 option이 상위에 있었고, KLD score 0.01 아래의 entry들이 강조됐다. 댓글은 이를 최종 답이 아니라 공통 기준점처럼 다뤘다. 어떤 사용자는 Gemma 4와 더 큰 Qwen model도 같은 방식으로 보고 싶다고 했고, 다른 사용자는 publisher별 marker shape를 달리해 chart를 읽기 쉽게 만들자고 했다. 긴 기술 댓글은 efficiency 계산을 칭찬하면서도, long-context에서는 quantization 손상이 다르게 나타날 수 있으니 near-full context length에서도 KLD를 재야 한다고 제안했다.

이 thread의 에너지는 LocalLLaMA가 감각적인 model 추천에서 반복 가능한 측정으로 옮겨가고 있다는 데 있다. 글은 하나의 universal best quant를 정하지 않는다. 대신 file size, BPW, KLD, PPL, memory fit, workload 사이의 tradeoff를 이야기할 기준을 준다. Local inference에서 이것은 filename을 따라가는 것과 실제 deployment 선택을 하는 것의 차이다.

Qwen3.5-9B quant 고르기, LocalLLaMA는 감이 아니라 KLD 표를 원했다

Related Articles

r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다

Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF 공개, 새 K_P quants 포함

Comments (0)

Leave a Comment

Related Articles

r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다

Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF 공개, 새 K_P quants 포함
LLM Reddit Mar 23, 2026 2 min read