Qwen 3.6 27B 양자화 비교, LocalLLaMA가 꽂힌 건 Q4_K_M… 그런데 숫자 논쟁

Original: Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation View original →

Read in other languages: English日本語
LLM Apr 29, 2026 By Insights AI (Reddit) 1 min read Source

이 글이 LocalLLaMA에서 바로 반응을 얻은 이유는 익숙하다. 또 하나의 “내 환경에서는 잘 돈다”가 아니라, Qwen 3.6 27B의 양자화 버전을 나란히 놓고 비교했기 때문이다. 작성자는 llama-cpp-python 환경에서 BF16, Q4_K_M, Q8_0 GGUF를 HumanEval, HellaSwag, BFCL로 측정했고, 정확도와 처리 속도, 메모리 사용량을 함께 공개했다. 이 서브레딧이 늘 원하던 종류의 실험이다.

표면적인 결론은 꽤 실용적이다. BF16은 평균 정확도 69.78%로 가장 높았지만 최대 RAM 54GB와 15.5 tok/s가 필요했다. Q4_K_M은 평균 66.54%로 내려가지만 BFCL은 거의 유지했고, 속도는 22.5 tok/s로 더 빠르며 최대 RAM은 28GB까지 줄었다. 모델 파일도 훨씬 작다. Q8_0은 HumanEval만 보면 Q4_K_M보다 약간 낫지만 전체 속도와 메모리, HellaSwag 수치까지 합치면 이번 실험에서는 실전 이점이 크지 않아 보였다. 그래서 댓글 다수는 Q4_K_M이 현실적인 균형점 아니냐는 쪽으로 움직였다.

재미있는 건 찬사가 금방 검증 논쟁으로 바뀌었다는 점이다. 최상단 댓글은 “이런 비교를 더 많이 보고 싶다”고 환영했지만, 바로 뒤에서는 오차 범위가 없다는 지적이 나왔다. 다른 댓글들은 KV 캐시 양자화 설정이 무엇이었는지, Q8_0이 왜 일부 테스트에서 Q4_K_M보다 밀리는지, 심지어 HumanEval 점수 자체가 Qwen 3.6 27B 치고 너무 낮은 것 아니냐고 따졌다. 숫자를 던지는 순간 커뮤니티는 곧바로 재현성과 설정 변수로 들어간다.

그래도 이 글의 가치는 분명하다. 로컬 LLM 커뮤니티가 원하는 건 거대한 선언이 아니라 이런 식의 배포 단위 비교다. 당장 쓸 결론은 Q4_K_M이 RAM과 속도를 중시하는 사용자에게 꽤 매력적이라는 것이다. 더 큰 결론은 또 하나 있다. 로컬 벤치마크가 논쟁을 끝내려면, 이제는 결과만큼 방법 공개도 정교해야 한다.

Share: Long

Related Articles

LLM Reddit Apr 14, 2026 1 min read

r/LocalLLaMA에서 이 비교가 먹힌 이유는 GGUF 파일 선택을 감이나 평판이 아니라 분포 차이로 설명했기 때문이다. 작성자는 BF16 baseline 대비 mean KLD를 기준으로 community quants를 정렬했고, Q8_0 계열은 fidelity 쪽 상단에, 여러 IQ4와 Q5 계열은 size 대 fidelity 균형 구간에 배치했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.