r/LocalLLaMA が追った TurboQuant on MLX、KV cache compression が FP16 speed に迫る
Original: TurboQuant on MLX: 4.6x KV cache compression with custom Metal kernels (Qwen 32B at 98% FP16 speed) View original →
なぜ r/LocalLLaMA が反応したのか
March 28, 2026 に traction を得た r/LocalLLaMA の投稿は、単なる paper 紹介ではなかった。投稿者は TurboQuant 系の KV cache compression を MLX に移植し、custom Metal kernel を加え、code と writeup、さらに upstream PR まで公開した。ここが大きい。LocalLLaMA community が欲しいのは、long-context efficiency の理論的な promise ではなく、Apple Silicon 上の現実の local inference stack で動く実装だからだ。
Reddit 投稿と Medium writeup では、Qwen2.5-32B を M4 Pro 48GB で動かした場合に 4.6x KV cache compression、0.98x FP16 speed、そして 16K context で 4.2GB から 897MB への memory 削減が示されている。説明によれば、効いたのは理論だけではなく実装上の工夫だった。fused Metal quantize/dequantize kernel、毎 decode step で full cache を再処理しない incremental decode buffer、そして Python ではなく GPU 側で bit extraction を行う設計が鍵になった。速度は 0.28x FP16 からほぼ parity まで押し上げられたという。
どこに caveat があるか
土台になっている TurboQuant 論文 は確かに技術的に面白い。randomized rotation と quantization を組み合わせ、distortion を抑えながら vector を圧縮するもので、KV cache についても 3.5 bits per channel 前後で quality neutrality に近いと報告している。ただし shipping の話はもっと複雑だ。repo README では、7B model の layer-adaptive mode で 1.9x から 2.4x compression、速度も FP16 未満という、より保守的な数値が示されている。これは Reddit の結果を否定するのではなく、model size、layer sensitivity、implementation detail が現実の payoff を大きく左右するということだ。
その nuance こそが community に刺さった。LocalLLaMA の user は clever な paper だけでなく、consumer hardware で longer context を現実的に伸ばす道筋を探している。次に見るべきは、mlx-lm PR が clean に upstream されるか、そして broader な perplexity や needle-in-a-haystack test が headline number を支えるかどうかだ。もしそこまで揃えば、TurboQuant on MLX は 2026 年の Apple Silicon 向け local LLM inference でかなり実用的な upgrade 候補になりそうだ。
Related Articles
LocalLLaMAの実装報告は、Apple Silicon向けnative MLX DFlash runtimeがQwen系inferenceを複数条件で2倍から3倍以上高速化すると主張する。注目点はspeedupだけでなく、greedy baselineとbit-for-bit identical outputを維持したと説明しているところだ。
Ollamaが2026年3月30日にApple Silicon向けのMLX previewを公開した。MLX、NVFP4、改良されたcacheを組み合わせ、prefillとdecodeの両方を高速化したとしてHacker Newsでも注目を集めた。
Hacker Newsで注目を集めたFlash-MoEは、SSDストリーミングとMetalカーネルを使ってQwen3.5-397B-A17Bを48GB M3 MaxノートPCで対話可能な速度まで動かす手法を示した。
Comments (0)
No comments yet. Be the first to comment!