ローカルLLMの第2の壁、QVAC TurboQuantがKV cacheを5倍圧縮

ローカルLLMの限界は、model weightsが入るかどうかだけではない。長い会話、codebase、文書を扱うとKV cacheが膨らみ、VRAMの天井にぶつかる。QVAC SDK 0.12.0は、この第2の壁にTurboQuantをopt-in機能として入れた。

TurboQuantはGoogle ResearchがICLR 2026で出したKV-cache quantization algorithmだ。QVACの説明では、16-bitのKV cacheを値あたり約3-bitまで圧縮しながら、LongBench、ZeroSCROLLS、RULER、L-Eval、NIAHなどのlong-context benchmarkでほぼ測定可能なaccuracy lossを出さない。retraining、calibration、fine-tuningなしで、GGUFとして読み込まれる標準的なtransformerに使える点も開発者向けには大きい。

数字はかなり具体的だ。QVACは、Qwen3.5-4Bを262K tokensで動かすと16-bit precisionのKV dataが約8GBになると説明する。SDK 0.12.0の表では、RTX 5060 8GBが従来の約120K tokensからTurboQuant適用時に262K tokensまで届く見込みだ。RTX 5070 12GBも約250Kから262K full contextへ伸びる。RTX 5090 32GBやStrix Halo 128GBのようにすでに262Kを扱える環境でも、KV budget削減の意味は残る。

現時点の対応はAMDとNVIDIA GPUで、iOS、Android、Apple Siliconは今後の対応だ。したがって、今日の話はすべてのスマートフォンで巨大AIが動くというより、local coding assistant、長文契約書の分析、on-premのHIPAA/GDPR inferenceがより安いhardwareで現実味を持つという変化に近い。長いcontextはcloud APIを買う機能だった。その前提が少し崩れ始めている。