Hacker News는 Microsoft의 bitnet.cpp를 다시 끌어올리며, 새 100B checkpoint보다 1.58-bit inference framework와 CPU 전력 효율 개선에 더 큰 의미를 두는 반응을 보였다.
#quantization
RSS Feedr/LocalLLaMA에서 llama.cpp GGUF의 NVFP4 지원 PR이 큰 반응을 얻었다. 제한된 VRAM 환경에서 메모리 효율과 추론 속도 개선 가능성이 주된 관심사다.
LocalLLaMA의 고득점 글은 Qwen3.5-27B Q4 계열을 KLD와 용량으로 비교해, “가장 정확한 파일”과 “가성비가 좋은 파일”을 분리해 제시했다.
r/LocalLLaMA 고득점 스레드에서 Unsloth의 Qwen3.5-35B-A3B Dynamic GGUF 업데이트가 공유되며, KLD/PPL 지표와 실제 다운스트림 검증 필요성이 함께 제기됐다.
높은 반응을 얻은 LocalLLaMA 후속 실험 글은 Qwen3.5-35B-A3B를 RTX 5080 환경에서 Q4_K_M, KV q8_0, 배치 플래그 없는 --fit 구성으로 운용할 때 가장 실용적인 결과를 제시했다.
LocalLLaMA에서 주목받은 PR #19726은 ik_llama.cpp의 IQ*_K 계열 quantization 경로를 mainline llama.cpp로 포팅하는 초안으로, CPU backend 구현과 초기 KLD 비교를 함께 제시했다.
LocalLLaMA 인기 글은 MiniMax-M2.5의 로컬 실행 가이드를 공유하며, GGUF 양자화·메모리 요구사항·agentic 워크로드 비용 구조를 둘러싼 실무 논의를 촉발했다.
r/MachineLearning 게시물은 동일한 가중치와 ONNX export를 사용해도 Snapdragon 칩셋별 온디바이스 정확도가 91.8%~71.2%까지 크게 벌어질 수 있다고 보고했다.
r/LocalLLaMA에서 Heretic 1.2 발표가 주목받았다. 게시글 기준으로 4-bit 로딩으로 VRAM 최대 70% 절감, MPOA 지원, VL 처리 확장, 자동 재개 기능이 핵심 업데이트다.