r/MachineLearningで注目のAttention Residuals、KimiがPreNorm residualのボトルネックに切り込む

r/MachineLearning のスレッドが、Kimi Team の Attention Residuals 論文を広く可視化した。反応は67 upvotes、10 commentsで、規模そのものは巨大ではないが、テーマがかなり技術的であることを考えると十分に濃い signal だ。論点は意外なほど素朴で、現代 LLM の弱点は attention そのものではなく、residual path が過去の layer 出力を無差別に積み上げる方式にあるのではないか、という問いである。リンク先の arXiv 論文 2603.15031 は、標準的な PreNorm residual connection が過去の出力を固定 unit weight で加算し続けるため、depth が深くなるにつれて hidden state の成長と各 layer の寄与の希薄化を招くと述べている。

residual pathを作り直す発想

提案されている解決策が Attention Residuals (AttnRes) だ。過去の layer 出力を一様に足す代わりに、現在の layer が preceding state に softmax attention をかけ、input-dependent な weight で selective aggregation を行う。つまり、model はすべての過去 representation を等しく受け継ぐのではなく、現在の入力にとって重要な layer を選んで強調できるようになる。著者たちはこれを、deep PreNorm stack における fixed-sum 的な振る舞いを弱める方法として位置づけている。

当然、systems 面の反論もある。すべての過去 layer に attention を向ければ cost は高い。そこで論文は Block AttnRes も導入する。block-level representation を使うことで memory と communication overhead を下げつつ、full AttnRes の利点を大きく保つという考え方だ。architecture のアイデアは paper 上では美しく見えても、training cost の前で崩れやすい。その意味で、この論文は implementation story を最初から論点に含めている。

なぜRedditで議論になったのか

投稿によれば、この方式は Kimi Linear にも組み込まれ、48B total / 3B activated parameter の構成で 1.4T tokens を使って pre-train された。論文は downstream performance の改善、depth 全体でより均一な output magnitude、より揃った gradient distribution を主張している。コメント欄では、ある読者が「かなり直感的な発想で、むしろ今まで強く試されてこなかったのが不思議だ」と述べた。一方で別の読者は、改善が residual redesign そのものによるのか、それとも parameter や compute budget の違いによるのかを切り分ける必要があると指摘している。

このやり取りこそが thread の価値だ。次の LLM の改善は context length や post-training recipe だけでなく、すでに解決済みと思われていた transformer の plumbing を見直すところから来るかもしれない、という研究テーマをはっきり示しているからだ。AttnRes は background に消えがちな residual connection を再び前面に戻し、r/MachineLearning がこれを単なる小さな tweak 以上のものとして扱った理由もそこにある。

r/MachineLearningで注目のAttention Residuals、KimiがPreNorm residualのボトルネックに切り込む

residual pathを作り直す発想

なぜRedditで議論になったのか

Related Articles

Δ-Mem：8×8の小型オンラインメモリでLLMの長期記憶課題を解決

Hacker Newsが追う、Transformer depth改善を狙うMoonshot AIの Attention Residuals

製造終了のIntel OptaneメモリでローカルLLM(1兆パラメータ)を毎秒4トークンで動作

Related Articles

Δ-Mem：8×8の小型オンラインメモリでLLMの長期記憶課題を解決
LLM Hacker News May 16, 2026 1 min read

Hacker Newsが追う、Transformer depth改善を狙うMoonshot AIの Attention Residuals
LLM Hacker News Mar 21, 2026 1 min read

製造終了のIntel OptaneメモリでローカルLLM(1兆パラメータ)を毎秒4トークンで動作
LLM Reddit May 12, 2026 1 min read