r/LocalLLaMA が追った TurboQuant on MLX、KV cache compression が FP16 speed に迫る

Original: TurboQuant on MLX: 4.6x KV cache compression with custom Metal kernels (Qwen 32B at 98% FP16 speed) View original →

Read in other languages: 한국어English
LLM Mar 28, 2026 By Insights AI (Reddit) 1 min read Source

なぜ r/LocalLLaMA が反応したのか

March 28, 2026 に traction を得た r/LocalLLaMA の投稿は、単なる paper 紹介ではなかった。投稿者は TurboQuant 系の KV cache compression を MLX に移植し、custom Metal kernel を加え、code と writeup、さらに upstream PR まで公開した。ここが大きい。LocalLLaMA community が欲しいのは、long-context efficiency の理論的な promise ではなく、Apple Silicon 上の現実の local inference stack で動く実装だからだ。

Reddit 投稿と Medium writeup では、Qwen2.5-32B を M4 Pro 48GB で動かした場合に 4.6x KV cache compression、0.98x FP16 speed、そして 16K context で 4.2GB から 897MB への memory 削減が示されている。説明によれば、効いたのは理論だけではなく実装上の工夫だった。fused Metal quantize/dequantize kernel、毎 decode step で full cache を再処理しない incremental decode buffer、そして Python ではなく GPU 側で bit extraction を行う設計が鍵になった。速度は 0.28x FP16 からほぼ parity まで押し上げられたという。

どこに caveat があるか

土台になっている TurboQuant 論文 は確かに技術的に面白い。randomized rotation と quantization を組み合わせ、distortion を抑えながら vector を圧縮するもので、KV cache についても 3.5 bits per channel 前後で quality neutrality に近いと報告している。ただし shipping の話はもっと複雑だ。repo README では、7B model の layer-adaptive mode で 1.9x から 2.4x compression、速度も FP16 未満という、より保守的な数値が示されている。これは Reddit の結果を否定するのではなく、model size、layer sensitivity、implementation detail が現実の payoff を大きく左右するということだ。

その nuance こそが community に刺さった。LocalLLaMA の user は clever な paper だけでなく、consumer hardware で longer context を現実的に伸ばす道筋を探している。次に見るべきは、mlx-lm PR が clean に upstream されるか、そして broader な perplexity や needle-in-a-haystack test が headline number を支えるかどうかだ。もしそこまで揃えば、TurboQuant on MLX は 2026 年の Apple Silicon 向け local LLM inference でかなり実用的な upgrade 候補になりそうだ。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.