r/LocalLLaMA が追った TurboQuant on MLX、KV cache compression が FP16 speed に迫る

なぜ r/LocalLLaMA が反応したのか

March 28, 2026 に traction を得た r/LocalLLaMA の投稿は、単なる paper 紹介ではなかった。投稿者は TurboQuant 系の KV cache compression を MLX に移植し、custom Metal kernel を加え、code と writeup、さらに upstream PR まで公開した。ここが大きい。LocalLLaMA community が欲しいのは、long-context efficiency の理論的な promise ではなく、Apple Silicon 上の現実の local inference stack で動く実装だからだ。

Reddit 投稿と Medium writeup では、Qwen2.5-32B を M4 Pro 48GB で動かした場合に 4.6x KV cache compression、0.98x FP16 speed、そして 16K context で 4.2GB から 897MB への memory 削減が示されている。説明によれば、効いたのは理論だけではなく実装上の工夫だった。fused Metal quantize/dequantize kernel、毎 decode step で full cache を再処理しない incremental decode buffer、そして Python ではなく GPU 側で bit extraction を行う設計が鍵になった。速度は 0.28x FP16 からほぼ parity まで押し上げられたという。

どこに caveat があるか

土台になっている TurboQuant 論文は確かに技術的に面白い。randomized rotation と quantization を組み合わせ、distortion を抑えながら vector を圧縮するもので、KV cache についても 3.5 bits per channel 前後で quality neutrality に近いと報告している。ただし shipping の話はもっと複雑だ。repo README では、7B model の layer-adaptive mode で 1.9x から 2.4x compression、速度も FP16 未満という、より保守的な数値が示されている。これは Reddit の結果を否定するのではなく、model size、layer sensitivity、implementation detail が現実の payoff を大きく左右するということだ。

その nuance こそが community に刺さった。LocalLLaMA の user は clever な paper だけでなく、consumer hardware で longer context を現実的に伸ばす道筋を探している。次に見るべきは、mlx-lm PR が clean に upstream されるか、そして broader な perplexity や needle-in-a-haystack test が headline number を支えるかどうかだ。もしそこまで揃えば、TurboQuant on MLX は 2026 年の Apple Silicon 向け local LLM inference でかなり実用的な upgrade 候補になりそうだ。

r/LocalLLaMA が追った TurboQuant on MLX、KV cache compression が FP16 speed に迫る

なぜ r/LocalLLaMA が反応したのか

どこに caveat があるか

Related Articles

r/LocalLLaMA、M1 Maxでの MLX と llama.cpp の実効レイテンシ差を検証

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化

LocalLLaMAが注目したTurboQuant実装、sparse V dequantで32K decodeを22.8%改善

Related Articles

r/LocalLLaMA、M1 Maxでの MLX と llama.cpp の実効レイテンシ差を検証
LLM Reddit Mar 14, 2026 1 min read

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化
LLM Hacker News Mar 31, 2026 1 min read

LocalLLaMAが注目したTurboQuant実装、sparse V dequantで32K decodeを22.8%改善
LLM Reddit Mar 27, 2026 1 min read

なぜ r/LocalLLaMA が反応したのか

どこに caveat があるか

Related Articles

r/LocalLLaMA、M1 Maxでの MLX と llama.cpp の実効レイテンシ差を検証

Ollama、Apple Silicon向けMLX previewを公開 ローカルLLM性能を大幅強化

LocalLLaMAが注目したTurboQuant実装、sparse V dequantで32K decodeを22.8%改善

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化