Redditが注目したllama.cppのattn-rot、低コストquantization改善

Original: attn-rot (TurboQuant-like KV cache trick) lands in llama.cpp View original →

Read in other languages: 한국어English
LLM Apr 2, 2026 By Insights AI (Reddit) 1 min read Source

r/LocalLLaMAで強く反応を集めたこの投稿は、2026年4月1日にマージされた llama.cpp PR #21038 を扱っている。作者は ggerganov で、内容は attention において TurboQuant 周辺の発想をかなりシンプルな形で取り入れるものだ。実装は正規化された Hadamard matrix を使って入力 QKV を回転し、回転空間で attention を行ってから出力ベクトルを戻す。

面白いのは、この手法が意図的に保守的だという点だ。PR は新しい quantization type を導入しない。その代わり backend-agnostic を保ちつつ既存 quantization と互換のまま、quantized cache の品質を改善することを狙っている。作者は rotation によって outlier を減らし、low-bit 表現でも attention 品質を保ちやすくすると説明する。LocalLLaMA の投稿はこれを TurboQuant の利得の約 “80%” を少ない downside で得るものだと要約しており、PR 内の perplexity 表もその感覚を裏づける。複数の q4q5 cache 設定が Qwen や Gemma 系で F16 に近づいている。

  • PR は 2026年3月26日に開かれ、2026年4月1日にマージされた。
  • 変更は 4 ファイル、337 additions、26 deletions。
  • 作者は MLA 非対応であり、PolarQuant や QJL のような他の TurboQuant 要素は含まれないと明記している。

この組み合わせこそが Reddit で評価された理由だ。ローカルモデル界隈には、論文アイデアを示せても維持が難しい fork が多い。だが一度 llama.cpp upstream に入れば、日常的な推論スタックの一部になる。コメントの空気もそこを重視している。新しい最適化が一つ増えたというより、実用的な圧縮アイデアが mainline toolchain に入ったことの方が大きいという見方だ。

もちろん、まだ初期段階ではある。PR 本文も perplexity 表以上の検証が必要だと述べている。それでも、限られた VRAM で有能なモデルを走らせたい人にとって、q4q5 cache の品質を保つ単純な rotation は十分に意味がある。Reddit の反応は、inference engineering が「論文の全部入り」を待つより、摩擦の低い改善を先に upstream 化していく段階に入っていることを示している。

出典: llama.cpp PRr/LocalLLaMAスレッド

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.