r/LocalLLaMA: Qwen3.5-27B Q4 양자화 비교, KLD 기반 실측 데이터 공개
Original: Qwen3.5-27B Q4 Quantization Comparison View original →
커뮤니티에서 나온 실험 데이터
2026-03-03 23:50:33 UTC에 올라온 r/LocalLLaMA 글 Qwen3.5-27B Q4 Quantization Comparison는 크롤링 시점 기준 198점, 댓글 73개를 기록했다. 글 작성자는 Qwen3.5-27B의 커뮤니티 GGUF Q4 양자화 파일들을 한 번에 스윕해, BF16 기준선 대비 분포 차이를 정량화했다.
핵심 지표는 KLD(KL Divergence)다. 작성자는 KLD를 “원본 가중치 분포와의 충실도”로 설명하며, 값이 낮을수록 BF16 출력 분포에 가깝다고 해석했다. 데이터셋은 두 가지를 사용했다: ChatML 형식의 커스텀 코퍼스(47 chunks, -c 4096)와 wikitext2 테스트셋(72 chunks, -c 4096).
게시물의 주요 결과
- KLD 기준 1위: unsloth_Qwen3.5-27B-UD-Q4_K_XL (16.411 GiB, KLD 0.005087)
- 뒤따르는 상위권: bartowski Q4_K_M, unsloth Q4_K_M 등
- 효율성 점수 1위: bartowski_Qwen3.5-27B-IQ4_XS (14.130 GiB, KLD 0.007062)
- 실험 환경: i3-12100F, 64GB DDR4-3200, RTX 3060 12GB, llama.cpp mainline 8189
흥미로운 점은 “정확도 최상위”와 “용량 대비 효율 최상위”가 서로 다르다는 것이다. 즉, 단일 추천 파일보다 사용자의 VRAM 제약과 품질 목표에 따라 선택 기준을 분리해야 한다는 메시지를 준다.
해석 시 주의할 점
이 비교는 커뮤니티 주도 실험으로, 공식 벤치마크나 논문 리뷰를 대체하지 않는다. 또한 작성자가 사용한 데이터셋 구성, chunk 설정, 런타임 버전이 결과에 큰 영향을 줄 수 있다. 그럼에도 동일 모델의 여러 GGUF 변형을 같은 조건에서 비교했다는 점에서, 로컬 LLM 사용자에게 실질적인 의사결정 자료가 된다.
댓글에서도 “실제 선택에 도움이 된다”는 반응이 많았고, 일부 사용자는 size-KLD 관계를 별도 플롯으로 재분석해 토론을 확장했다. 단순 소식 공유를 넘어 실험 재현과 검증 문화가 형성된 사례로 볼 수 있다.
Sources: Reddit post (r/LocalLLaMA).
Related Articles
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.
r/LocalLLaMA 고득점 스레드에서 Unsloth의 Qwen3.5-35B-A3B Dynamic GGUF 업데이트가 공유되며, KLD/PPL 지표와 실제 다운스트림 검증 필요성이 함께 제기됐다.
r/LocalLLaMA에서 llama.cpp GGUF의 NVFP4 지원 PR이 큰 반응을 얻었다. 제한된 VRAM 환경에서 메모리 효율과 추론 속도 개선 가능성이 주된 관심사다.
Comments (0)
No comments yet. Be the first to comment!