r/LocalLLaMA: Qwen3.5-27B Q4 양자화 비교, KLD 기반 실측 데이터 공개

Original: Qwen3.5-27B Q4 Quantization Comparison View original →

Read in other languages: English日本語
LLM Mar 4, 2026 By Insights AI (Reddit) 1 min read 1 views Source

커뮤니티에서 나온 실험 데이터

2026-03-03 23:50:33 UTC에 올라온 r/LocalLLaMA 글 Qwen3.5-27B Q4 Quantization Comparison는 크롤링 시점 기준 198점, 댓글 73개를 기록했다. 글 작성자는 Qwen3.5-27B의 커뮤니티 GGUF Q4 양자화 파일들을 한 번에 스윕해, BF16 기준선 대비 분포 차이를 정량화했다.

핵심 지표는 KLD(KL Divergence)다. 작성자는 KLD를 “원본 가중치 분포와의 충실도”로 설명하며, 값이 낮을수록 BF16 출력 분포에 가깝다고 해석했다. 데이터셋은 두 가지를 사용했다: ChatML 형식의 커스텀 코퍼스(47 chunks, -c 4096)와 wikitext2 테스트셋(72 chunks, -c 4096).

게시물의 주요 결과

  • KLD 기준 1위: unsloth_Qwen3.5-27B-UD-Q4_K_XL (16.411 GiB, KLD 0.005087)
  • 뒤따르는 상위권: bartowski Q4_K_M, unsloth Q4_K_M 등
  • 효율성 점수 1위: bartowski_Qwen3.5-27B-IQ4_XS (14.130 GiB, KLD 0.007062)
  • 실험 환경: i3-12100F, 64GB DDR4-3200, RTX 3060 12GB, llama.cpp mainline 8189

흥미로운 점은 “정확도 최상위”와 “용량 대비 효율 최상위”가 서로 다르다는 것이다. 즉, 단일 추천 파일보다 사용자의 VRAM 제약과 품질 목표에 따라 선택 기준을 분리해야 한다는 메시지를 준다.

해석 시 주의할 점

이 비교는 커뮤니티 주도 실험으로, 공식 벤치마크나 논문 리뷰를 대체하지 않는다. 또한 작성자가 사용한 데이터셋 구성, chunk 설정, 런타임 버전이 결과에 큰 영향을 줄 수 있다. 그럼에도 동일 모델의 여러 GGUF 변형을 같은 조건에서 비교했다는 점에서, 로컬 LLM 사용자에게 실질적인 의사결정 자료가 된다.

댓글에서도 “실제 선택에 도움이 된다”는 반응이 많았고, 일부 사용자는 size-KLD 관계를 별도 플롯으로 재분석해 토론을 확장했다. 단순 소식 공유를 넘어 실험 재현과 검증 문화가 형성된 사례로 볼 수 있다.

Sources: Reddit post (r/LocalLLaMA).

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.