#quantization

LLM Reddit 10h ago 1 min read

Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다

LocalLLaMA가 이 글에 꽂힌 이유는 숫자 하나 때문만은 아니었다. RTX 5090 한 장에서 Qwen3.6-27B-INT4를 100 tps와 256k context로 돌렸다는 보고가 올라오자, 댓글은 곧바로 “그 속도에서 품질은 어디까지 지키느냐”로 모였다.

#qwen #vllm #rtx-5090

LLM Reddit 18h ago 1 min read

KV cache 양자화, Gemma 4가 먼저 흔들린 이유

LocalLLaMA가 이 글에 반응한 이유는 q8_0 KV cache가 늘 무난하다는 통념이 깨졌기 때문이다. Gemma 4는 Qwen 3.6보다 훨씬 빨리 품질이 무너졌고, 스레드는 바로 SWA cache와 긴 context 영향으로 옮겨갔다.

#kv-cache #quantization #gemma-4

LLM Reddit 1d ago 1 min read

RTX 5090 한 장으로 Qwen 3.6 27B 80t/s, LocalLLaMA가 반응한 이유

LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.

#qwen #vllm #rtx-5090

LLM Reddit 2d ago 2 min read

q8_0이면 거의 공짜라는 통념, LocalLLaMA가 깨뜨린 KV 캐시 데이터

LocalLLaMA가 반응한 이유는 단순한 수치 비교가 아니었다. 많은 로컬 추론 사용자가 사실상 상식처럼 받아들이던 규칙을 정면으로 건드렸고, 특히 Gemma 쪽에서 모델별 차이가 크다는 점을 보여 줬기 때문이다. 2026년 4월 25일 크롤링 시점 기준 스레드는 324점, 58댓글이었다.

#kv-cache #gemma #qwen

LLM sources.twitter 4d ago 1 min read

Cohere W4A8, vLLM Hopper에서 first-token latency 58% 단축 주장

중요한 점은 inference cost가 이제 infrastructure 문제가 아니라 product constraint가 됐다는 데 있다. Cohere는 vLLM의 W4A8 path가 Hopper에서 W4A16 대비 TTFT 최대 58%, TPOT 최대 45% 빠르다고 밝혔다.

#cohere #vllm #inference

LLM Reddit Apr 20, 2026 1 min read

M5 Max에서 돈 Qwen3.6, LocalLLaMA의 관심은 code를 밖으로 안 보내도 되나였다

r/LocalLLaMA가 이 글을 끌어올린 이유는 “trust me bro”식 후기 안에 8-bit, 64k context, OpenCode, Android debugging이라는 실제 사용 조건이 들어 있었기 때문이다.

#qwen #local-llm #coding-agents

LLM sources.twitter Apr 16, 2026 1 min read

Ternary Bonsai, 1.58-bit open 8B model을 1.75GB로 줄였다

PrismML은 작은 open model이 architecture만이 아니라 weight format 변화로도 쓸 만해질 수 있는지 시험한다. Ternary Bonsai는 1.58 bits에서 8B, 4B, 1.7B 모델을 내고 8B variant는 1.75GB로 제시됐다.

#ternary-bonsai #open-models #huggingface

LLM Reddit Apr 16, 2026 1 min read

Qwen3.5-9B quant 고르기, LocalLLaMA는 감이 아니라 KLD 표를 원했다

LocalLLaMA가 이 글을 올려준 이유는 복잡한 GGUF 선택을 측정 가능한 tradeoff로 바꿨기 때문이다. 글은 community Qwen3.5-9B quant를 BF16 baseline과 mean KLD로 비교했고, 댓글은 chart 표현, Gemma 4, Thireus quant, long-context test까지 요구했다.

#qwen #gguf #quantization

LLM Reddit Apr 16, 2026 1 min read

브라우저에서 290MB 1-bit LLM, LocalLLaMA의 흥분과 현실 체크

LocalLLaMA가 크게 반응한 이유는 demo가 직관적이었기 때문이다. 약 290MB짜리 1.7B Bonsai model이 WebGPU로 browser 안에서 돈다. 같은 thread는 곧바로 tokens per second, hallucination, llama.cpp support, 그리고 1-bit model이 narrow task 밖에서도 쓸 만한지 따지며 현실 체크를 붙였다.

#local-llm #webgpu #quantization

LLM sources.twitter Apr 14, 2026 1 min read

Quantized Gemma 4 31B, 메모리 절반으로 tokens/sec를 거의 두 배 끌어올리다

Quantization 얘기는 accuracy가 버티지 못하면 곧바로 무너진다. Red Hat AI는 quantized Gemma 4 31B가 메모리를 절반으로 줄이면서 tokens/sec를 거의 2배로 높이고, baseline accuracy의 99%+를 유지한다고 적었다.

#gemma-4 #quantization #vllm

LLM Reddit Apr 14, 2026 1 min read

r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자

r/LocalLLaMA에서 이 비교가 먹힌 이유는 GGUF 파일 선택을 감이나 평판이 아니라 분포 차이로 설명했기 때문이다. 작성자는 BF16 baseline 대비 mean KLD를 기준으로 community quants를 정렬했고, Q8_0 계열은 fidelity 쪽 상단에, 여러 IQ4와 Q5 계열은 size 대 fidelity 균형 구간에 배치했다.

#qwen #quantization #gguf

LLM Reddit Apr 2, 2026 1 min read

Reddit가 직접 시험한 PrismML Bonsai 1-bit 모델, 발표 이상으로 가벼운 local LLM

r/LocalLLaMA의 반응은 PrismML Bonsai 발표가 단순한 compression headline 이상으로 받아들여지고 있음을 보여 준다. 회사가 내세운 end-to-end 1-bit 설계와, 실제 사용자가 체감한 사용성 개선이 함께 이야기되고 있다.

#bonsai #1-bit #edge-ai