QVAC SDK 0.12.0はTurboQuantをopt-in機能として追加し、ローカルLLMのruntime context memoryを最大5倍削減する。8GB級GPUでも4B modelの262K contextを狙える点が大きい。
#turboquant
RSS Feedpatched llama.cpp で Qwen 3.5-9B を MacBook Air M4 16 GB と 20,000-token context で動かしたという LocalLLaMA 投稿は、今回の 2026年4月4日クロールで 1,159 upvotes と 193 comments を集め、TurboQuant を単なる研究見出しではなく実際の local inference 議論に押し上げた。
r/LocalLLaMAでは、llama.cpp PR #21038 のマージが素早く共有され、Hadamardベースの回転で Q、K、V を処理する方式が TurboQuant 系の利得をより低い摩擦で持ち込めると受け止められている。要点は、新しい quantization format を増やさず既存スタックに乗ることだ。
高スコアの r/LocalLLaMA 投稿は、TurboQuant を polar coordinates ではなく random rotation の後に quantization するという直感で説明した。リンク先の arXiv paper は、near-optimal distortion rate、residual QJL、そして KV cache での 3.5 bits per channel quality neutrality を主張している。
LocalLLaMAのself-postは、attention weightが無視できる位置でV dequantを飛ばすsparse V dequant手法を紹介し、llama.cpp向けTurboQuant実装で32K context decodeを22.8%押し上げたと報告した。Qwen3.5-35B-A3BとApple M5 Maxではperplexityは維持され、NIAHは7/9から9/9へ改善したという。
Hacker Newsで注目されたTurboQuantは、再学習なしでKV cacheを3-bitまで圧縮し、検索とlong-context inferenceのメモリボトルネックを和らげるGoogle Researchの手法だ。