Redditが注目したllama.cppのattn-rot、低コストquantization改善
Original: attn-rot (TurboQuant-like KV cache trick) lands in llama.cpp View original →
r/LocalLLaMAで強く反応を集めたこの投稿は、2026年4月1日にマージされた llama.cpp PR #21038 を扱っている。作者は ggerganov で、内容は attention において TurboQuant 周辺の発想をかなりシンプルな形で取り入れるものだ。実装は正規化された Hadamard matrix を使って入力 Q、K、V を回転し、回転空間で attention を行ってから出力ベクトルを戻す。
面白いのは、この手法が意図的に保守的だという点だ。PR は新しい quantization type を導入しない。その代わり backend-agnostic を保ちつつ既存 quantization と互換のまま、quantized cache の品質を改善することを狙っている。作者は rotation によって outlier を減らし、low-bit 表現でも attention 品質を保ちやすくすると説明する。LocalLLaMA の投稿はこれを TurboQuant の利得の約 “80%” を少ない downside で得るものだと要約しており、PR 内の perplexity 表もその感覚を裏づける。複数の q4、q5 cache 設定が Qwen や Gemma 系で F16 に近づいている。
- PR は 2026年3月26日に開かれ、2026年4月1日にマージされた。
- 変更は 4 ファイル、337 additions、26 deletions。
- 作者は MLA 非対応であり、PolarQuant や QJL のような他の TurboQuant 要素は含まれないと明記している。
この組み合わせこそが Reddit で評価された理由だ。ローカルモデル界隈には、論文アイデアを示せても維持が難しい fork が多い。だが一度 llama.cpp upstream に入れば、日常的な推論スタックの一部になる。コメントの空気もそこを重視している。新しい最適化が一つ増えたというより、実用的な圧縮アイデアが mainline toolchain に入ったことの方が大きいという見方だ。
もちろん、まだ初期段階ではある。PR 本文も perplexity 表以上の検証が必要だと述べている。それでも、限られた VRAM で有能なモデルを走らせたい人にとって、q4 や q5 cache の品質を保つ単純な rotation は十分に意味がある。Reddit の反応は、inference engineering が「論文の全部入り」を待つより、摩擦の低い改善を先に upstream 化していく段階に入っていることを示している。
出典: llama.cpp PR ・ r/LocalLLaMAスレッド
Related Articles
高スコアの r/LocalLLaMA 投稿は、TurboQuant を polar coordinates ではなく random rotation の後に quantization するという直感で説明した。リンク先の arXiv paper は、near-optimal distortion rate、residual QJL、そして KV cache での 3.5 bits per channel quality neutrality を主張している。
LocalLLaMAで話題になったattn-rotは、Hadamard rotationでQ、K、Vを回転させてKV cache quantizationの品質を改善しようとするllama.cpp PRだ。新しいformatを作らずにperplexityを大きく下げられる可能性が注目されている。
2026年3月にr/singularityで共有されたGoogle ResearchのTurboQuant記事は114 pointsと18 commentsを集めた。Googleは、この手法がneedle系タスクでKV cacheメモリを少なくとも6倍削減し、学習なしで3-bit圧縮とH100で最大8倍のattention-logit高速化を示したと説明している。
Comments (0)
No comments yet. Be the first to comment!