LocalLLaMAがこの投稿に反応したのは、q8_0 KV cacheはだいたい安全という前提が崩れたからだ。Gemma 4はQwen 3.6よりずっと早く劣化し、議論はすぐにSWA cacheと長文contextの影響へ向かった。
#kv-cache
RSS FeedLocalLLaMAが反応したのは単なる数値比較ではなかった。多くのローカル推論ユーザーが事実上の常識として使っていたルールを崩し、とくにGemma系でモデル差が大きいことを示したからだ。2026年4月25日時点でスレッドは324ポイント、58コメントだった。
`r/LocalLLaMA` の benchmark post は、TurboQuant KV cache compression により RTX 5090 1 枚で Gemma 4 31B を 256K context まで動かしたと主張する。速度だけでなく VRAM usage、Windows/MSVC build fix、KV quant の品質懸念まで共有している点が注目された。
r/LocalLLaMAでは、llama.cpp PR #21038 のマージが素早く共有され、Hadamardベースの回転で Q、K、V を処理する方式が TurboQuant 系の利得をより低い摩擦で持ち込めると受け止められている。要点は、新しい quantization format を増やさず既存スタックに乗ることだ。
Hacker Newsでは、KV cacheを抽象的なarchitecture用語ではなくGPU memoryコストとして説明するFuture Shockの記事が再び共有されている。GPT-2からLlama 3、DeepSeek V3、Gemma 3、Mamba系まで、memory設計の変化を一つの流れとして見せる内容だ。
LocalLLaMAで話題になったattn-rotは、Hadamard rotationでQ、K、Vを回転させてKV cache quantizationの品質を改善しようとするllama.cpp PRだ。新しいformatを作らずにperplexityを大きく下げられる可能性が注目されている。
2026年3月にr/singularityで共有されたGoogle ResearchのTurboQuant記事は114 pointsと18 commentsを集めた。Googleは、この手法がneedle系タスクでKV cacheメモリを少なくとも6倍削減し、学習なしで3-bit圧縮とH100で最大8倍のattention-logit高速化を示したと説明している。
高スコアの r/LocalLLaMA 投稿は、TurboQuant を polar coordinates ではなく random rotation の後に quantization するという直感で説明した。リンク先の arXiv paper は、near-optimal distortion rate、residual QJL、そして KV cache での 3.5 bits per channel quality neutrality を主張している。
March 28, 2026 の r/LocalLLaMA 投稿は、TurboQuant の KV cache compression を MLX と custom Metal kernel に持ち込んだ実装記録として注目を集めた。投稿者は Qwen2.5-32B on M4 Pro 48GB で 4.6x compression と 0.98x FP16 speed を示したが、repo README の 7B 数値はより保守的で、実益が model と integration detail に強く依存することも見えている。
r/LocalLLaMA で注目された TurboQuant は、KV cache を 3-bit に圧縮して memory 使用量を少なくとも 6 倍削減できるという Google Research の主張を再浮上させた。焦点は、この手法が実際の local inference stack に入ったときに long-context 性能と運用コストをどこまで変えられるかだ。
LocalLLaMAのself-postは、attention weightが無視できる位置でV dequantを飛ばすsparse V dequant手法を紹介し、llama.cpp向けTurboQuant実装で32K context decodeを22.8%押し上げたと報告した。Qwen3.5-35B-A3BとApple M5 Maxではperplexityは維持され、NIAHは7/9から9/9へ改善したという。
Reddit threadが反応したのは、TurboQuantのdense rotationをより構造的なrotor mathに置き換え、attention fidelityを大きく落とさずkernel costを下げられるという実務的な主張だった。