Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다
Original: Qwen3.6 GGUF Benchmarks View original →
Qwen3.6에 대한 r/LocalLLaMA의 관심은 “새 model이 나왔다”에서 끝나지 않았다. 2026-04-17 16:17:50 UTC에 올라온 Qwen3.6 GGUF Benchmarks post는 crawl 시점 score 460대와 80개 넘는 comments를 모았고, 논점은 benchmark headline보다 더 실용적인 곳으로 내려갔다. local user에게 중요한 질문은 결국 어떤 GGUF quant를 받고, 어떤 runtime에서 깨지지 않게 돌리느냐였다.
Post 작성자는 Qwen3.6-35B-A3B GGUF KLD performance benchmark를 공유하며, Unsloth quants가 KLD vs disk space pareto frontier에서 21/22 times 가장 좋았다고 주장했다. 함께 링크된 Hugging Face README는 Qwen3.6-35B-A3B를 35B total, 3B activated model로 설명하고, context length는 262,144 natively, 최대 1,010,000 tokens까지 확장 가능하다고 적는다. 또한 developer role support, tool calling 개선, coding agent benchmark 개선이 강조돼 있다.
하지만 community가 붙잡은 건 숫자 표만이 아니었다. Top discussion은 low-bit quant에서 gibberish가 나오는 CUDA 13.2 문제로 곧장 이동했다. Commenter는 이 문제가 특정 provider만의 문제가 아니라 4bit 이하 quants 전반에 영향을 줄 수 있으며, NVIDIA가 CUDA 13.3에서 fix를 확인했다는 맥락을 공유했다. 당장의 workaround는 CUDA 13.1을 쓰는 것이다.
이런 반응은 LocalLLaMA 특유의 에너지다. Benchmark는 marketing slide가 아니라 download choice, VRAM budget, quant provider 신뢰, llama.cpp bugfix, weekend testing plan으로 해석된다. 다른 comments도 graph readability와 neutrality를 따졌고, 일부는 특정 quant provider가 discussion을 주도하는 데 불편함을 표시했다.
그래서 이 post의 가치는 Qwen3.6이 강하다는 주장 자체보다, local inference에서 성능이 “model weight” 하나로 결정되지 않는다는 점에 있다. GGUF format, quantization layer 선택, CUDA version, provider update cadence, preserve_thinking 같은 configuration이 모두 체감 품질을 바꾼다. r/LocalLLaMA는 release hype를 실제 machine에서의 운영 checklist로 바꿔 읽고 있었다.
Related Articles
r/LocalLLaMA에서 이 비교가 먹힌 이유는 GGUF 파일 선택을 감이나 평판이 아니라 분포 차이로 설명했기 때문이다. 작성자는 BF16 baseline 대비 mean KLD를 기준으로 community quants를 정렬했고, Q8_0 계열은 fidelity 쪽 상단에, 여러 IQ4와 Q5 계열은 size 대 fidelity 균형 구간에 배치했다.
LocalLLaMA가 이 글을 올려준 이유는 복잡한 GGUF 선택을 측정 가능한 tradeoff로 바꿨기 때문이다. 글은 community Qwen3.5-9B quant를 BF16 baseline과 mean KLD로 비교했고, 댓글은 chart 표현, Gemma 4, Thireus quant, long-context test까지 요구했다.
r/LocalLLaMA의 벤치마크 글은 RTX A6000 48GB, llama.cpp CUDA, 32k context 조건에서 Qwen3.5 27B가 약 19.7 tok/s를 기록하며 크기 대비 성능 균형이 좋다고 평가했다.
Comments (0)
No comments yet. Be the first to comment!