r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자
Original: Updated Qwen3.5-9B Quantization Comparison View original →
r/LocalLLaMA에서는 quantization 비교 글이 자주 올라오지만, 대부분은 “내 장비에서는 이게 괜찮더라” 수준에서 끝나기 쉽다. 이번 Qwen3.5-9B 글이 반응을 얻은 이유는 그걸 조금 더 계량적으로 밀어붙였기 때문이다. 글쓴이는 community GGUF quant를 BF16 baseline과의 mean KLD로 비교해, 어떤 파일이 원래 분포에서 얼마나 멀어지는지를 기준으로 다시 순서를 세웠다. LocalLLaMA 사용자들이 딱 원하던 포인트다. 어느 repo가 유명한지보다, 실제로 어떤 quant가 원 모델의 분포를 덜 망가뜨리는지가 궁금했던 것이다.
포스트의 설명도 명확하다. perplexity는 데이터셋과 운에 영향을 많이 받아 noisy할 수 있지만, KLD는 baseline 분포와 직접 비교하므로 “information loss”를 더 직접적으로 본다는 주장이다. 표를 보면 상단은 거의 모두 Q8_0 계열이 차지한다. eaddario의 Q8_0은 KLD 0.001198, unsloth UD-Q8_K_XL은 0.001243, bartowski Q8_0은 0.001405 수준이다. 반면 파일 크기까지 함께 고려하는 efficiency ranking에서는 IQ4_XS, IQ4_NL, 일부 Q5_K_S 조합이 꽤 좋은 균형점으로 올라온다. 즉, 최고의 fidelity와 최고의 size-efficiency는 같은 답이 아니라는 걸 숫자로 보여준다.
이 글이 더 유용한 이유는 재현 정보도 같이 붙어 있기 때문이다. 작성자는 eval dataset gist, 103 chunks at -c 512, 사용한 ik_llama.cpp build, 그리고 NVIDIA driver 595.97까지 적어 두었다. 그래서 댓글도 단순 감사 인사에 머물지 않았다. 상위 댓글은 “Gemma 4도 해달라”, “MoE도 보고 싶다”, “i1 quants도 넣어 달라”처럼 다음 실험을 바로 요청했다. 커뮤니티가 이 표를 일회성 이미지가 아니라 reusable benchmark scaffold로 받아들이고 있다는 뜻이다.
실전 선택으로 요약하면 이렇다. 가장 낮은 drift가 목적이면 Q8_0 계열이 강하고, 메모리 예산과 성능 균형이 더 중요하면 IQ4_XS, IQ4_NL, Q5_K_S 같은 지점이 다시 후보로 올라온다. 원문 스레드는 r/LocalLLaMA, 데이터셋은 gist, 구현 환경은 ik_llama.cpp release에서 확인할 수 있다. 이 글의 커뮤니티 에너지는 단순 비교표보다, “이제는 quant도 감으로 고르지 말자”는 집단적 피로감에서 나온다.
Related Articles
r/LocalLLaMA 게시물은 Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF와 새 K_P quants를 소개한다. 작성자는 0/465 refusals와 zero capability loss를 주장했지만, 이는 작성자 본인 테스트에 기반한 self-reported claim이다.
LocalLLaMA 글은 최근 llama.cpp 수정 사항 때문에 Gemma 4 GGUF를 다시 내려받을 필요가 생겼다고 주장하며, 로컬 추론 사용자들이 주목해야 할 변경점을 정리했다.
r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.
Comments (0)
No comments yet. Be the first to comment!