#gguf

LLM Reddit Apr 29, 2026 1 min read

Qwen 3.6 27B 양자화 비교, LocalLLaMA가 꽂힌 건 Q4_K_M… 그런데 숫자 논쟁

LocalLLaMA가 먼저 반긴 건 숫자 자체보다 “이런 비교 더 필요하다”는 분위기였다. 다만 Q4_K_M이 Q8_0보다 실전형으로 보인다는 결론이 나오자, 곧바로 오차 범위와 KV 캐시 설정을 따지는 검증 모드로 들어갔다.

#qwen #gguf #quantization

LLM Reddit Apr 28, 2026 1 min read

RTX 3090에서 거의 2배, LocalLLaMA가 Luce DFlash에 몰린 이유

LocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.

#qwen #speculative-decoding #gguf

LLM Reddit Apr 18, 2026 1 min read

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다

r/LocalLLaMA가 Qwen3.6 release 자체보다 GGUF quant 선택과 CUDA 버그에 더 크게 반응했다. Unsloth의 benchmark post는 KLD, disk space, 4bit gibberish, CUDA 13.1/13.3 같은 실제 실행 조건을 전면에 올렸다.

#qwen #gguf #local-llm

LLM Reddit Apr 14, 2026 1 min read

r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자

r/LocalLLaMA에서 이 비교가 먹힌 이유는 GGUF 파일 선택을 감이나 평판이 아니라 분포 차이로 설명했기 때문이다. 작성자는 BF16 baseline 대비 mean KLD를 기준으로 community quants를 정렬했고, Q8_0 계열은 fidelity 쪽 상단에, 여러 IQ4와 Q5 계열은 size 대 fidelity 균형 구간에 배치했다.

#qwen #quantization #gguf

LLM Reddit Apr 9, 2026 1 min read

Gemma 4 GGUF를 다시 받아야 하나, Reddit이 짚은 llama.cpp 수정들

LocalLLaMA 글은 최근 llama.cpp 수정 사항 때문에 Gemma 4 GGUF를 다시 내려받을 필요가 생겼다고 주장하며, 로컬 추론 사용자들이 주목해야 할 변경점을 정리했다.

#gemma-4 #gguf #llama-cpp

LLM Reddit Mar 23, 2026 2 min read

Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF 공개, 새 K_P quants 포함

r/LocalLLaMA 게시물은 Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF와 새 K_P quants를 소개한다. 작성자는 0/465 refusals와 zero capability loss를 주장했지만, 이는 작성자 본인 테스트에 기반한 self-reported claim이다.

#qwen #gguf #local-llms

LLM Reddit Mar 20, 2026 1 min read

LocalLLaMA를 달군 커뮤니티 제작 Qwen 3.5 9B GGUF 머지

r/LocalLLaMA에서 1360 points를 얻은 이 글은 HauhauCS 계열의 uncensored 변경과 Jackrong의 reasoning distillation을 결합한 Qwen 3.5 9B GGUF 실험을 소개하며, 소형 로컬 모델 튜닝의 현재 관심사를 보여줬다.

#qwen #gguf #distillation

LLM Hacker News Mar 8, 2026 1 min read

Qwen 3.5 로컬 실행 가이드, 메모리 요구량과 256K context, llama.cpp 설정 정리

Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.

#qwen #llama.cpp #local-llm

LLM Reddit Mar 6, 2026 1 min read

llama.cpp NVFP4 양자화 PR, LocalLLaMA에서 로컬 추론 핵심 이슈로 부상

r/LocalLLaMA에서 llama.cpp GGUF의 NVFP4 지원 PR이 큰 반응을 얻었다. 제한된 VRAM 환경에서 메모리 효율과 추론 속도 개선 가능성이 주된 관심사다.

#llama-cpp #gguf #nvfp4

LLM Reddit Mar 4, 2026 1 min read

r/LocalLLaMA: Qwen3.5-27B Q4 양자화 비교, KLD 기반 실측 데이터 공개

LocalLLaMA의 고득점 글은 Qwen3.5-27B Q4 계열을 KLD와 용량으로 비교해, “가장 정확한 파일”과 “가성비가 좋은 파일”을 분리해 제시했다.

#qwen #quantization #gguf

LLM Reddit Feb 28, 2026 1 min read

r/LocalLLaMA, Qwen3.5 Dynamic GGUF 업데이트 분석: 150회+ KLD와 텐서별 양자화 논쟁

r/LocalLLaMA 고득점 스레드에서 Unsloth의 Qwen3.5-35B-A3B Dynamic GGUF 업데이트가 공유되며, KLD/PPL 지표와 실제 다운스트림 검증 필요성이 함께 제기됐다.

#qwen #quantization #gguf

LLM Reddit Feb 18, 2026 1 min read

LocalLLaMA 화제: MiniMax-M2.5 로컬 GGUF 배포가 다시 보여준 프런티어 모델 운영 현실

LocalLLaMA 인기 글은 MiniMax-M2.5의 로컬 실행 가이드를 공유하며, GGUF 양자화·메모리 요구사항·agentic 워크로드 비용 구조를 둘러싼 실무 논의를 촉발했다.

#minimax #gguf #local-inference