#kv-cache

LLM Reddit Apr 26, 2026 1 min read

KV cache量子化でGemma 4が先に崩れる理由　LocalLLaMAが注目

LocalLLaMAがこの投稿に反応したのは、q8_0 KV cacheはだいたい安全という前提が崩れたからだ。Gemma 4はQwen 3.6よりずっと早く劣化し、議論はすぐにSWA cacheと長文contextの影響へ向かった。

LLM Reddit Apr 25, 2026 1 min read

「q8_0ならほぼ無損失」を崩したKVキャッシュ検証、LocalLLaMAの反応

LocalLLaMAが反応したのは単なる数値比較ではなかった。多くのローカル推論ユーザーが事実上の常識として使っていたルールを崩し、とくにGemma系でモデル差が大きいことを示したからだ。2026年4月25日時点でスレッドは324ポイント、58コメントだった。

#kv-cache #gemma #qwen

LLM Reddit Apr 4, 2026 1 min read

LocalLLaMA、RTX 5090 1枚で Gemma 4 31B の 256K context benchmark を共有

`r/LocalLLaMA` の benchmark post は、TurboQuant KV cache compression により RTX 5090 1 枚で Gemma 4 31B を 256K context まで動かしたと主張する。速度だけでなく VRAM usage、Windows/MSVC build fix、KV quant の品質懸念まで共有している点が注目された。

#gemma4 #llama.cpp #kv-cache

LLM Reddit Apr 2, 2026 1 min read

Redditが注目したllama.cppのattn-rot、低コストquantization改善

r/LocalLLaMAでは、llama.cpp PR #21038 のマージが素早く共有され、Hadamardベースの回転で Q、K、V を処理する方式が TurboQuant 系の利得をより低い摩擦で持ち込めると受け止められている。要点は、新しい quantization format を増やさず既存スタックに乗ることだ。

#llama.cpp #turboquant #kv-cache

LLM Hacker News Apr 2, 2026 1 min read

Hacker Newsが再確認したlong-context LLMのKV cacheコスト

Hacker Newsでは、KV cacheを抽象的なarchitecture用語ではなくGPU memoryコストとして説明するFuture Shockの記事が再び共有されている。GPT-2からLlama 3、DeepSeek V3、Gemma 3、Mamba系まで、memory設計の変化を一つの流れとして見せる内容だ。

#kv-cache #inference #transformers

LLM Reddit Apr 1, 2026 1 min read

Redditが注目したllama.cppのattn-rot、KV cache量子化の品質改善は現実味を帯びるか

LocalLLaMAで話題になったattn-rotは、Hadamard rotationでQ、K、Vを回転させてKV cache quantizationの品質を改善しようとするllama.cpp PRだ。新しいformatを作らずにperplexityを大きく下げられる可能性が注目されている。

#llama.cpp #quantization #kv-cache

LLM Reddit Mar 29, 2026 1 min read

Redditが注目したTurboQuant、精度を落とさず3-bit KV cache圧縮を狙うGoogleの手法

2026年3月にr/singularityで共有されたGoogle ResearchのTurboQuant記事は114 pointsと18 commentsを集めた。Googleは、この手法がneedle系タスクでKV cacheメモリを少なくとも6倍削減し、学習なしで3-bit圧縮とH100で最大8倍のattention-logit高速化を示したと説明している。

#quantization #kv-cache #vector-search

LLM Reddit Mar 29, 2026 1 min read

r/LocalLLaMA が噛み砕いた TurboQuant の核心、rotate してから quantize する

高スコアの r/LocalLLaMA 投稿は、TurboQuant を polar coordinates ではなく random rotation の後に quantization するという直感で説明した。リンク先の arXiv paper は、near-optimal distortion rate、residual QJL、そして KV cache での 3.5 bits per channel quality neutrality を主張している。

#turboquant #quantization #kv-cache

LLM Reddit Mar 28, 2026 1 min read

r/LocalLLaMA が追った TurboQuant on MLX、KV cache compression が FP16 speed に迫る

March 28, 2026 の r/LocalLLaMA 投稿は、TurboQuant の KV cache compression を MLX と custom Metal kernel に持ち込んだ実装記録として注目を集めた。投稿者は Qwen2.5-32B on M4 Pro 48GB で 4.6x compression と 0.98x FP16 speed を示したが、repo README の 7B 数値はより保守的で、実益が model と integration detail に強く依存することも見えている。

#mlx #kv-cache #metal

LLM Reddit Mar 28, 2026 1 min read

r/LocalLLaMA が注目した TurboQuant、KV cache 圧縮で local LLM の壁を下げるか

r/LocalLLaMA で注目された TurboQuant は、KV cache を 3-bit に圧縮して memory 使用量を少なくとも 6 倍削減できるという Google Research の主張を再浮上させた。焦点は、この手法が実際の local inference stack に入ったときに long-context 性能と運用コストをどこまで変えられるかだ。

#compression #kv-cache #quantization

LLM Reddit Mar 27, 2026 1 min read

LocalLLaMAが注目したTurboQuant実装、sparse V dequantで32K decodeを22.8%改善

LocalLLaMAのself-postは、attention weightが無視できる位置でV dequantを飛ばすsparse V dequant手法を紹介し、llama.cpp向けTurboQuant実装で32K context decodeを22.8%押し上げたと報告した。Qwen3.5-35B-A3BとApple M5 Maxではperplexityは維持され、NIAHは7/9から9/9へ改善したという。

#llm-inference #kv-cache #llama-cpp

LLM Reddit Mar 27, 2026 1 min read