r/LocalLLaMA: Qwen3.5-27B Q4 양자화 비교, KLD 기반 실측 데이터 공개

커뮤니티에서 나온 실험 데이터

2026-03-03 23:50:33 UTC에 올라온 r/LocalLLaMA 글 Qwen3.5-27B Q4 Quantization Comparison는 크롤링 시점 기준 198점, 댓글 73개를 기록했다. 글 작성자는 Qwen3.5-27B의 커뮤니티 GGUF Q4 양자화 파일들을 한 번에 스윕해, BF16 기준선 대비 분포 차이를 정량화했다.

핵심 지표는 KLD(KL Divergence)다. 작성자는 KLD를 “원본 가중치 분포와의 충실도”로 설명하며, 값이 낮을수록 BF16 출력 분포에 가깝다고 해석했다. 데이터셋은 두 가지를 사용했다: ChatML 형식의 커스텀 코퍼스(47 chunks, -c 4096)와 wikitext2 테스트셋(72 chunks, -c 4096).

게시물의 주요 결과

KLD 기준 1위: unsloth_Qwen3.5-27B-UD-Q4_K_XL (16.411 GiB, KLD 0.005087)
뒤따르는 상위권: bartowski Q4_K_M, unsloth Q4_K_M 등
효율성 점수 1위: bartowski_Qwen3.5-27B-IQ4_XS (14.130 GiB, KLD 0.007062)
실험 환경: i3-12100F, 64GB DDR4-3200, RTX 3060 12GB, llama.cpp mainline 8189

흥미로운 점은 “정확도 최상위”와 “용량 대비 효율 최상위”가 서로 다르다는 것이다. 즉, 단일 추천 파일보다 사용자의 VRAM 제약과 품질 목표에 따라 선택 기준을 분리해야 한다는 메시지를 준다.

해석 시 주의할 점

이 비교는 커뮤니티 주도 실험으로, 공식 벤치마크나 논문 리뷰를 대체하지 않는다. 또한 작성자가 사용한 데이터셋 구성, chunk 설정, 런타임 버전이 결과에 큰 영향을 줄 수 있다. 그럼에도 동일 모델의 여러 GGUF 변형을 같은 조건에서 비교했다는 점에서, 로컬 LLM 사용자에게 실질적인 의사결정 자료가 된다.

댓글에서도 “실제 선택에 도움이 된다”는 반응이 많았고, 일부 사용자는 size-KLD 관계를 별도 플롯으로 재분석해 토론을 확장했다. 단순 소식 공유를 넘어 실험 재현과 검증 문화가 형성된 사례로 볼 수 있다.

Sources: Reddit post (r/LocalLLaMA).

r/LocalLLaMA: Qwen3.5-27B Q4 양자화 비교, KLD 기반 실측 데이터 공개

커뮤니티에서 나온 실험 데이터

게시물의 주요 결과

해석 시 주의할 점

Related Articles

Qwen 3.6 27B 양자화 비교, LocalLLaMA가 꽂힌 건 Q4_K_M… 그런데 숫자 논쟁

r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자

Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF 공개, 새 K_P quants 포함

Related Articles

Qwen 3.6 27B 양자화 비교, LocalLLaMA가 꽂힌 건 Q4_K_M… 그런데 숫자 논쟁
LLM Reddit Apr 29, 2026 1 min read

r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자
LLM Reddit Apr 14, 2026 1 min read

Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF 공개, 새 K_P quants 포함
LLM Reddit Mar 23, 2026 2 min read