r/MachineLearningで注目のAttention Residuals、KimiがPreNorm residualのボトルネックに切り込む
Original: [R] Attention Residuals by Kimi Team View original →
r/MachineLearning のスレッドが、Kimi Team の Attention Residuals 論文を広く可視化した。反応は67 upvotes、10 commentsで、規模そのものは巨大ではないが、テーマがかなり技術的であることを考えると十分に濃い signal だ。論点は意外なほど素朴で、現代 LLM の弱点は attention そのものではなく、residual path が過去の layer 出力を無差別に積み上げる方式にあるのではないか、という問いである。リンク先の arXiv 論文 2603.15031 は、標準的な PreNorm residual connection が過去の出力を固定 unit weight で加算し続けるため、depth が深くなるにつれて hidden state の成長と各 layer の寄与の希薄化を招くと述べている。
residual pathを作り直す発想
提案されている解決策が Attention Residuals (AttnRes) だ。過去の layer 出力を一様に足す代わりに、現在の layer が preceding state に softmax attention をかけ、input-dependent な weight で selective aggregation を行う。つまり、model はすべての過去 representation を等しく受け継ぐのではなく、現在の入力にとって重要な layer を選んで強調できるようになる。著者たちはこれを、deep PreNorm stack における fixed-sum 的な振る舞いを弱める方法として位置づけている。
当然、systems 面の反論もある。すべての過去 layer に attention を向ければ cost は高い。そこで論文は Block AttnRes も導入する。block-level representation を使うことで memory と communication overhead を下げつつ、full AttnRes の利点を大きく保つという考え方だ。architecture のアイデアは paper 上では美しく見えても、training cost の前で崩れやすい。その意味で、この論文は implementation story を最初から論点に含めている。
なぜRedditで議論になったのか
投稿によれば、この方式は Kimi Linear にも組み込まれ、48B total / 3B activated parameter の構成で 1.4T tokens を使って pre-train された。論文は downstream performance の改善、depth 全体でより均一な output magnitude、より揃った gradient distribution を主張している。コメント欄では、ある読者が「かなり直感的な発想で、むしろ今まで強く試されてこなかったのが不思議だ」と述べた。一方で別の読者は、改善が residual redesign そのものによるのか、それとも parameter や compute budget の違いによるのかを切り分ける必要があると指摘している。
このやり取りこそが thread の価値だ。次の LLM の改善は context length や post-training recipe だけでなく、すでに解決済みと思われていた transformer の plumbing を見直すところから来るかもしれない、という研究テーマをはっきり示しているからだ。AttnRes は background に消えがちな residual connection を再び前面に戻し、r/MachineLearning がこれを単なる小さな tweak 以上のものとして扱った理由もそこにある。
Related Articles
新しいarXiv論文Δ-Memが、デルタ規則学習で更新される固定サイズの状態行列により、凍結されたLLMに長期記憶を付与する手法を提案した。MemoryAgentBenchで基準比1.31倍の性能向上を達成している。
2026年3月20日のHacker NewsではAttention Residualsが議論され、固定residual additionの代わりにlearned depth-wise attentionを使う発想と、低いoverheadでの実装可能性が注目された。
r/LocalLLaMAのユーザーが、製造終了したIntel Optane PMem(768GB)を中古市場で安価に入手し、Kimi K2.5(1兆パラメータ)をローカルで毎秒4トークン以上で動作させることに成功した。