r/MachineLearningで注目のAttention Residuals、KimiがPreNorm residualのボトルネックに切り込む
Original: [R] Attention Residuals by Kimi Team View original →
r/MachineLearning のスレッドが、Kimi Team の Attention Residuals 論文を広く可視化した。反応は67 upvotes、10 commentsで、規模そのものは巨大ではないが、テーマがかなり技術的であることを考えると十分に濃い signal だ。論点は意外なほど素朴で、現代 LLM の弱点は attention そのものではなく、residual path が過去の layer 出力を無差別に積み上げる方式にあるのではないか、という問いである。リンク先の arXiv 論文 2603.15031 は、標準的な PreNorm residual connection が過去の出力を固定 unit weight で加算し続けるため、depth が深くなるにつれて hidden state の成長と各 layer の寄与の希薄化を招くと述べている。
residual pathを作り直す発想
提案されている解決策が Attention Residuals (AttnRes) だ。過去の layer 出力を一様に足す代わりに、現在の layer が preceding state に softmax attention をかけ、input-dependent な weight で selective aggregation を行う。つまり、model はすべての過去 representation を等しく受け継ぐのではなく、現在の入力にとって重要な layer を選んで強調できるようになる。著者たちはこれを、deep PreNorm stack における fixed-sum 的な振る舞いを弱める方法として位置づけている。
当然、systems 面の反論もある。すべての過去 layer に attention を向ければ cost は高い。そこで論文は Block AttnRes も導入する。block-level representation を使うことで memory と communication overhead を下げつつ、full AttnRes の利点を大きく保つという考え方だ。architecture のアイデアは paper 上では美しく見えても、training cost の前で崩れやすい。その意味で、この論文は implementation story を最初から論点に含めている。
なぜRedditで議論になったのか
投稿によれば、この方式は Kimi Linear にも組み込まれ、48B total / 3B activated parameter の構成で 1.4T tokens を使って pre-train された。論文は downstream performance の改善、depth 全体でより均一な output magnitude、より揃った gradient distribution を主張している。コメント欄では、ある読者が「かなり直感的な発想で、むしろ今まで強く試されてこなかったのが不思議だ」と述べた。一方で別の読者は、改善が residual redesign そのものによるのか、それとも parameter や compute budget の違いによるのかを切り分ける必要があると指摘している。
このやり取りこそが thread の価値だ。次の LLM の改善は context length や post-training recipe だけでなく、すでに解決済みと思われていた transformer の plumbing を見直すところから来るかもしれない、という研究テーマをはっきり示しているからだ。AttnRes は background に消えがちな residual connection を再び前面に戻し、r/MachineLearning がこれを単なる小さな tweak 以上のものとして扱った理由もそこにある。
Related Articles
r/MachineLearningでは、重みを変えずに中間7層ブロックを複製するだけでbenchmarkを押し上げたという実験ノートが注目を集めている。
r/MachineLearningのあるreviewerは、no-LLM規定のあるICML投稿が実質的に全面AI執筆に見えると述べ、policy enforcementとreview burdenをめぐる率直な議論が起きた。
NVIDIAは2026年3月11日、120B parameter級の open model Nemotron 3 Super を発表した。NVIDIAは、1M-token context、hybrid MoE architecture、最大5倍の throughput により、agentic AI の context explosion と thinking tax を抑えると説明している。
Comments (0)
No comments yet. Be the first to comment!