#compression

AI X/Twitter Apr 18, 2026 1 min read

Cloudflare Unweight, Llama 번들을 손실 없이 최대 22% 줄이는 GPU 커널 공개

중요한 점은 Cloudflare가 GPU를 더 사는 문제가 아니라 LLM serving의 memory-bandwidth 병목을 직접 줄이려 한다는 데 있다. 글은 Llama 3.1 8B에서 15-22% 모델 크기 감소, 약 3GB VRAM 절감, 공개 GPU kernel을 제시한다.

#cloudflare #llm-inference #gpu

LLM Reddit Mar 28, 2026 1 min read

r/LocalLLaMA가 주목한 TurboQuant, KV cache 압축으로 local LLM 한계 낮추나

r/LocalLLaMA에서 주목받은 TurboQuant는 KV cache를 3-bit로 압축해 memory 사용량을 최소 6배 줄일 수 있다는 Google Research 결과를 다시 끌어올렸다. 관건은 이 기법이 실제 local inference stack에 통합돼 long-context 성능과 운영 비용을 얼마나 바꿀 수 있느냐다.

#compression #kv-cache #quantization