ローカルLLMの第2の壁、QVAC TurboQuantがKV cacheを5倍圧縮
Original: Local AI without memory limits: how QVAC’s latest upgrade unlocks 5x more context on your device View original →
ローカルLLMの限界は、model weightsが入るかどうかだけではない。長い会話、codebase、文書を扱うとKV cacheが膨らみ、VRAMの天井にぶつかる。QVAC SDK 0.12.0は、この第2の壁にTurboQuantをopt-in機能として入れた。
TurboQuantはGoogle ResearchがICLR 2026で出したKV-cache quantization algorithmだ。QVACの説明では、16-bitのKV cacheを値あたり約3-bitまで圧縮しながら、LongBench、ZeroSCROLLS、RULER、L-Eval、NIAHなどのlong-context benchmarkでほぼ測定可能なaccuracy lossを出さない。retraining、calibration、fine-tuningなしで、GGUFとして読み込まれる標準的なtransformerに使える点も開発者向けには大きい。
数字はかなり具体的だ。QVACは、Qwen3.5-4Bを262K tokensで動かすと16-bit precisionのKV dataが約8GBになると説明する。SDK 0.12.0の表では、RTX 5060 8GBが従来の約120K tokensからTurboQuant適用時に262K tokensまで届く見込みだ。RTX 5070 12GBも約250Kから262K full contextへ伸びる。RTX 5090 32GBやStrix Halo 128GBのようにすでに262Kを扱える環境でも、KV budget削減の意味は残る。
現時点の対応はAMDとNVIDIA GPUで、iOS、Android、Apple Siliconは今後の対応だ。したがって、今日の話はすべてのスマートフォンで巨大AIが動くというより、local coding assistant、長文契約書の分析、on-premのHIPAA/GDPR inferenceがより安いhardwareで現実味を持つという変化に近い。長いcontextはcloud APIを買う機能だった。その前提が少し崩れ始めている。
Related Articles
Redditで注目されたのは、Claude代替という見出しよりもtool call error rate 12%という具体的な限界だった。
大きな反応を集めた理由は古いCPUの意外性だけでなく、LLM inferenceの現実的なボトルネックが見えたことにある。
議論の中心は「AIがどれだけ速く書けるか」ではなく、遅いレビューの反復で信頼できるコードに近づけるかだった。
Comments (0)
No comments yet. Be the first to comment!