r/LocalLLaMA が追った TurboQuant on MLX、KV cache compression が FP16 speed に迫る
Original: TurboQuant on MLX: 4.6x KV cache compression with custom Metal kernels (Qwen 32B at 98% FP16 speed) View original →
なぜ r/LocalLLaMA が反応したのか
March 28, 2026 に traction を得た r/LocalLLaMA の投稿は、単なる paper 紹介ではなかった。投稿者は TurboQuant 系の KV cache compression を MLX に移植し、custom Metal kernel を加え、code と writeup、さらに upstream PR まで公開した。ここが大きい。LocalLLaMA community が欲しいのは、long-context efficiency の理論的な promise ではなく、Apple Silicon 上の現実の local inference stack で動く実装だからだ。
Reddit 投稿と Medium writeup では、Qwen2.5-32B を M4 Pro 48GB で動かした場合に 4.6x KV cache compression、0.98x FP16 speed、そして 16K context で 4.2GB から 897MB への memory 削減が示されている。説明によれば、効いたのは理論だけではなく実装上の工夫だった。fused Metal quantize/dequantize kernel、毎 decode step で full cache を再処理しない incremental decode buffer、そして Python ではなく GPU 側で bit extraction を行う設計が鍵になった。速度は 0.28x FP16 からほぼ parity まで押し上げられたという。
どこに caveat があるか
土台になっている TurboQuant 論文 は確かに技術的に面白い。randomized rotation と quantization を組み合わせ、distortion を抑えながら vector を圧縮するもので、KV cache についても 3.5 bits per channel 前後で quality neutrality に近いと報告している。ただし shipping の話はもっと複雑だ。repo README では、7B model の layer-adaptive mode で 1.9x から 2.4x compression、速度も FP16 未満という、より保守的な数値が示されている。これは Reddit の結果を否定するのではなく、model size、layer sensitivity、implementation detail が現実の payoff を大きく左右するということだ。
その nuance こそが community に刺さった。LocalLLaMA の user は clever な paper だけでなく、consumer hardware で longer context を現実的に伸ばす道筋を探している。次に見るべきは、mlx-lm PR が clean に upstream されるか、そして broader な perplexity や needle-in-a-haystack test が headline number を支えるかどうかだ。もしそこまで揃えば、TurboQuant on MLX は 2026 年の Apple Silicon 向け local LLM inference でかなり実用的な upgrade 候補になりそうだ。
Related Articles
Hacker Newsで注目を集めたFlash-MoEは、SSDストリーミングとMetalカーネルを使ってQwen3.5-397B-A17Bを48GB M3 MaxノートPCで対話可能な速度まで動かす手法を示した。
r/LocalLLaMA に投稿された rerun benchmark は、Apple M5 Max の強みが token generation 単体より prompt processing にあると主張する。Qwen 3.5 35B-A3B MoE の 2,845 tok/s PP512 などの数値は community measurement であり、独立 lab benchmark ではない。
LocalLLaMAのself-postは、attention weightが無視できる位置でV dequantを飛ばすsparse V dequant手法を紹介し、llama.cpp向けTurboQuant実装で32K context decodeを22.8%押し上げたと報告した。Qwen3.5-35B-A3BとApple M5 Maxではperplexityは維持され、NIAHは7/9から9/9へ改善したという。
Comments (0)
No comments yet. Be the first to comment!