r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자

Original: Updated Qwen3.5-9B Quantization Comparison View original →

Read in other languages: English日本語
LLM Apr 14, 2026 By Insights AI (Reddit) 1 min read Source

r/LocalLLaMA에서는 quantization 비교 글이 자주 올라오지만, 대부분은 “내 장비에서는 이게 괜찮더라” 수준에서 끝나기 쉽다. 이번 Qwen3.5-9B 글이 반응을 얻은 이유는 그걸 조금 더 계량적으로 밀어붙였기 때문이다. 글쓴이는 community GGUF quant를 BF16 baseline과의 mean KLD로 비교해, 어떤 파일이 원래 분포에서 얼마나 멀어지는지를 기준으로 다시 순서를 세웠다. LocalLLaMA 사용자들이 딱 원하던 포인트다. 어느 repo가 유명한지보다, 실제로 어떤 quant가 원 모델의 분포를 덜 망가뜨리는지가 궁금했던 것이다.

포스트의 설명도 명확하다. perplexity는 데이터셋과 운에 영향을 많이 받아 noisy할 수 있지만, KLD는 baseline 분포와 직접 비교하므로 “information loss”를 더 직접적으로 본다는 주장이다. 표를 보면 상단은 거의 모두 Q8_0 계열이 차지한다. eaddario의 Q8_0은 KLD 0.001198, unsloth UD-Q8_K_XL은 0.001243, bartowski Q8_0은 0.001405 수준이다. 반면 파일 크기까지 함께 고려하는 efficiency ranking에서는 IQ4_XS, IQ4_NL, 일부 Q5_K_S 조합이 꽤 좋은 균형점으로 올라온다. 즉, 최고의 fidelity와 최고의 size-efficiency는 같은 답이 아니라는 걸 숫자로 보여준다.

이 글이 더 유용한 이유는 재현 정보도 같이 붙어 있기 때문이다. 작성자는 eval dataset gist, 103 chunks at -c 512, 사용한 ik_llama.cpp build, 그리고 NVIDIA driver 595.97까지 적어 두었다. 그래서 댓글도 단순 감사 인사에 머물지 않았다. 상위 댓글은 “Gemma 4도 해달라”, “MoE도 보고 싶다”, “i1 quants도 넣어 달라”처럼 다음 실험을 바로 요청했다. 커뮤니티가 이 표를 일회성 이미지가 아니라 reusable benchmark scaffold로 받아들이고 있다는 뜻이다.

실전 선택으로 요약하면 이렇다. 가장 낮은 drift가 목적이면 Q8_0 계열이 강하고, 메모리 예산과 성능 균형이 더 중요하면 IQ4_XS, IQ4_NL, Q5_K_S 같은 지점이 다시 후보로 올라온다. 원문 스레드는 r/LocalLLaMA, 데이터셋은 gist, 구현 환경은 ik_llama.cpp release에서 확인할 수 있다. 이 글의 커뮤니티 에너지는 단순 비교표보다, “이제는 quant도 감으로 고르지 말자”는 집단적 피로감에서 나온다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.