#compression - Insights

AI X/Twitter Apr 18, 2026 1 min read

Cloudflare Unweight、Llama bundleをlosslessに最大22%削るGPU kernelを公開

重要なのは、CloudflareがLLM servingの制約をGPU台数ではなくmemory-bandwidthの問題として扱っている点だ。記事はLlama 3.1 8Bで15-22%のmodel-size reduction、約3GBのVRAM削減、公開GPU kernelsを示した。

#cloudflare #llm-inference #gpu

LLM Reddit Mar 28, 2026 1 min read

r/LocalLLaMA が注目した TurboQuant、KV cache 圧縮で local LLM の壁を下げるか

r/LocalLLaMA で注目された TurboQuant は、KV cache を 3-bit に圧縮して memory 使用量を少なくとも 6 倍削減できるという Google Research の主張を再浮上させた。焦点は、この手法が実際の local inference stack に入ったときに long-context 性能と運用コストをどこまで変えられるかだ。

#compression #kv-cache #quantization