LocalLLaMA가 먼저 반긴 건 숫자 자체보다 “이런 비교 더 필요하다”는 분위기였다. 다만 Q4_K_M이 Q8_0보다 실전형으로 보인다는 결론이 나오자, 곧바로 오차 범위와 KV 캐시 설정을 따지는 검증 모드로 들어갔다.
#gguf
RSS FeedLocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.
r/LocalLLaMA가 Qwen3.6 release 자체보다 GGUF quant 선택과 CUDA 버그에 더 크게 반응했다. Unsloth의 benchmark post는 KLD, disk space, 4bit gibberish, CUDA 13.1/13.3 같은 실제 실행 조건을 전면에 올렸다.
r/LocalLLaMA에서 이 비교가 먹힌 이유는 GGUF 파일 선택을 감이나 평판이 아니라 분포 차이로 설명했기 때문이다. 작성자는 BF16 baseline 대비 mean KLD를 기준으로 community quants를 정렬했고, Q8_0 계열은 fidelity 쪽 상단에, 여러 IQ4와 Q5 계열은 size 대 fidelity 균형 구간에 배치했다.
LocalLLaMA 글은 최근 llama.cpp 수정 사항 때문에 Gemma 4 GGUF를 다시 내려받을 필요가 생겼다고 주장하며, 로컬 추론 사용자들이 주목해야 할 변경점을 정리했다.
r/LocalLLaMA 게시물은 Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF와 새 K_P quants를 소개한다. 작성자는 0/465 refusals와 zero capability loss를 주장했지만, 이는 작성자 본인 테스트에 기반한 self-reported claim이다.
r/LocalLLaMA에서 1360 points를 얻은 이 글은 HauhauCS 계열의 uncensored 변경과 Jackrong의 reasoning distillation을 결합한 Qwen 3.5 9B GGUF 실험을 소개하며, 소형 로컬 모델 튜닝의 현재 관심사를 보여줬다.
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.
r/LocalLLaMA에서 llama.cpp GGUF의 NVFP4 지원 PR이 큰 반응을 얻었다. 제한된 VRAM 환경에서 메모리 효율과 추론 속도 개선 가능성이 주된 관심사다.
LocalLLaMA의 고득점 글은 Qwen3.5-27B Q4 계열을 KLD와 용량으로 비교해, “가장 정확한 파일”과 “가성비가 좋은 파일”을 분리해 제시했다.
r/LocalLLaMA 고득점 스레드에서 Unsloth의 Qwen3.5-35B-A3B Dynamic GGUF 업데이트가 공유되며, KLD/PPL 지표와 실제 다운스트림 검증 필요성이 함께 제기됐다.
LocalLLaMA 인기 글은 MiniMax-M2.5의 로컬 실행 가이드를 공유하며, GGUF 양자화·메모리 요구사항·agentic 워크로드 비용 구조를 둘러싼 실무 논의를 촉발했다.