#turboquant

LLM Jun 2, 2026 1 min read

ローカルLLMの第2の壁、QVAC TurboQuantがKV cacheを5倍圧縮

QVAC SDK 0.12.0はTurboQuantをopt-in機能として追加し、ローカルLLMのruntime context memoryを最大5倍削減する。8GB級GPUでも4B modelの262K contextを狙える点が大きい。

#qvac #turboquant #local-ai

LLM Reddit Apr 3, 2026 1 min read

LocalLLaMA が注目した TurboQuant-on-Mac、consumer hardware の現実的シグナル

patched llama.cpp で Qwen 3.5-9B を MacBook Air M4 16 GB と 20,000-token context で動かしたという LocalLLaMA 投稿は、今回の 2026年4月4日クロールで 1,159 upvotes と 193 comments を集め、TurboQuant を単なる研究見出しではなく実際の local inference 議論に押し上げた。

#turboquant #qwen #llama-cpp

LLM Reddit Apr 2, 2026 1 min read

Redditが注目したllama.cppのattn-rot、低コストquantization改善

r/LocalLLaMAでは、llama.cpp PR #21038 のマージが素早く共有され、Hadamardベースの回転で Q、K、V を処理する方式が TurboQuant 系の利得をより低い摩擦で持ち込めると受け止められている。要点は、新しい quantization format を増やさず既存スタックに乗ることだ。

#llama.cpp #turboquant #kv-cache

LLM Reddit Mar 29, 2026 1 min read

r/LocalLLaMA が噛み砕いた TurboQuant の核心、rotate してから quantize する

高スコアの r/LocalLLaMA 投稿は、TurboQuant を polar coordinates ではなく random rotation の後に quantization するという直感で説明した。リンク先の arXiv paper は、near-optimal distortion rate、residual QJL、そして KV cache での 3.5 bits per channel quality neutrality を主張している。

#turboquant #quantization #kv-cache

LLM Reddit Mar 27, 2026 1 min read

LocalLLaMAが注目したTurboQuant実装、sparse V dequantで32K decodeを22.8%改善

LocalLLaMAのself-postは、attention weightが無視できる位置でV dequantを飛ばすsparse V dequant手法を紹介し、llama.cpp向けTurboQuant実装で32K context decodeを22.8%押し上げたと報告した。Qwen3.5-35B-A3BとApple M5 Maxではperplexityは維持され、NIAHは7/9から9/9へ改善したという。

#llm-inference #kv-cache #llama-cpp