Skip to content

#kv-cache

RSS Feed
LLM Reddit Mar 29, 2026 1 min read

2026年3月にr/singularityで共有されたGoogle ResearchのTurboQuant記事は114 pointsと18 commentsを集めた。Googleは、この手法がneedle系タスクでKV cacheメモリを少なくとも6倍削減し、学習なしで3-bit圧縮とH100で最大8倍のattention-logit高速化を示したと説明している。

LLM Reddit Mar 28, 2026 1 min read

March 28, 2026 の r/LocalLLaMA 投稿は、TurboQuant の KV cache compression を MLX と custom Metal kernel に持ち込んだ実装記録として注目を集めた。投稿者は Qwen2.5-32B on M4 Pro 48GB で 4.6x compression と 0.98x FP16 speed を示したが、repo README の 7B 数値はより保守的で、実益が model と integration detail に強く依存することも見えている。

LLM Reddit Mar 28, 2026 1 min read

r/LocalLLaMA で注目された TurboQuant は、KV cache を 3-bit に圧縮して memory 使用量を少なくとも 6 倍削減できるという Google Research の主張を再浮上させた。焦点は、この手法が実際の local inference stack に入ったときに long-context 性能と運用コストをどこまで変えられるかだ。