#quantization

LLM Reddit Mar 23, 2026 2 min read

Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF 공개, 새 K_P quants 포함

r/LocalLLaMA 게시물은 Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF와 새 K_P quants를 소개한다. 작성자는 0/465 refusals와 zero capability loss를 주장했지만, 이는 작성자 본인 테스트에 기반한 self-reported claim이다.

#qwen #gguf #local-llms

LLM Hacker News Mar 11, 2026 1 min read

Hacker News가 주목한 BitNet, 단일 CPU에서 100B급 1-bit inference를 겨냥하다

Hacker News는 Microsoft의 bitnet.cpp를 다시 끌어올리며, 새 100B checkpoint보다 1.58-bit inference framework와 CPU 전력 효율 개선에 더 큰 의미를 두는 반응을 보였다.

#bitnet #local-llm #cpu-inference

LLM Reddit Mar 6, 2026 1 min read

llama.cpp NVFP4 양자화 PR, LocalLLaMA에서 로컬 추론 핵심 이슈로 부상

r/LocalLLaMA에서 llama.cpp GGUF의 NVFP4 지원 PR이 큰 반응을 얻었다. 제한된 VRAM 환경에서 메모리 효율과 추론 속도 개선 가능성이 주된 관심사다.

#llama-cpp #gguf #nvfp4

LLM Reddit Mar 4, 2026 1 min read

r/LocalLLaMA: Qwen3.5-27B Q4 양자화 비교, KLD 기반 실측 데이터 공개

LocalLLaMA의 고득점 글은 Qwen3.5-27B Q4 계열을 KLD와 용량으로 비교해, “가장 정확한 파일”과 “가성비가 좋은 파일”을 분리해 제시했다.

#qwen #quantization #gguf

LLM Reddit Feb 28, 2026 1 min read

r/LocalLLaMA, Qwen3.5 Dynamic GGUF 업데이트 분석: 150회+ KLD와 텐서별 양자화 논쟁

r/LocalLLaMA 고득점 스레드에서 Unsloth의 Qwen3.5-35B-A3B Dynamic GGUF 업데이트가 공유되며, KLD/PPL 지표와 실제 다운스트림 검증 필요성이 함께 제기됐다.

#qwen #quantization #gguf

LLM Reddit Feb 28, 2026 1 min read

r/LocalLLaMA 후속 벤치마크: RTX 5080 16GB에서 Q4_K_M + fit-nobatch 조합 우세

높은 반응을 얻은 LocalLLaMA 후속 실험 글은 Qwen3.5-35B-A3B를 RTX 5080 환경에서 Q4_K_M, KV q8_0, 배치 플래그 없는 --fit 구성으로 운용할 때 가장 실용적인 결과를 제시했다.

#qwen #llama-cpp #quantization

LLM Reddit Feb 20, 2026 1 min read

Reddit 주목: ik_llama.cpp의 IQ*_K 계열을 llama.cpp 본선으로 옮기는 Draft PR 등장

LocalLLaMA에서 주목받은 PR #19726은 ik_llama.cpp의 IQ*_K 계열 quantization 경로를 mainline llama.cpp로 포팅하는 초안으로, CPU backend 구현과 초기 KLD 비교를 함께 제시했다.

#llama-cpp #quantization #ggml

LLM Reddit Feb 18, 2026 1 min read

LocalLLaMA 화제: MiniMax-M2.5 로컬 GGUF 배포가 다시 보여준 프런티어 모델 운영 현실

LocalLLaMA 인기 글은 MiniMax-M2.5의 로컬 실행 가이드를 공유하며, GGUF 양자화·메모리 요구사항·agentic 워크로드 비용 구조를 둘러싼 실무 논의를 촉발했다.

#minimax #gguf #local-inference

AI Reddit Feb 18, 2026 1 min read

Reddit ML 사례: 동일 INT8 ONNX 모델이 Snapdragon 등급별로 큰 정확도 편차를 보인 이유

r/MachineLearning 게시물은 동일한 가중치와 ONNX export를 사용해도 Snapdragon 칩셋별 온디바이스 정확도가 91.8%~71.2%까지 크게 벌어질 수 있다고 보고했다.

#edge-ai #quantization #snapdragon

LLM Reddit Feb 15, 2026 1 min read

r/LocalLLaMA: Heretic 1.2 출시, 4-bit 경량화와 MPOA 지원으로 실험 효율 강화

r/LocalLLaMA에서 Heretic 1.2 발표가 주목받았다. 게시글 기준으로 4-bit 로딩으로 VRAM 최대 70% 절감, MPOA 지원, VL 처리 확장, 자동 재개 기능이 핵심 업데이트다.

#localllm #quantization #lora