r/MachineLearningで注目のAttention Residuals、KimiがPreNorm residualのボトルネックに切り込む

r/MachineLearning のスレッドが、Kimi Team の Attention Residuals 論文を広く可視化した。反応は67 upvotes、10 commentsで、規模そのものは巨大ではないが、テーマがかなり技術的であることを考えると十分に濃い signal だ。論点は意外なほど素朴で、現代 LLM の弱点は attention そのものではなく、residual path が過去の layer 出力を無差別に積み上げる方式にあるのではないか、という問いである。リンク先の arXiv 論文 2603.15031 は、標準的な PreNorm residual connection が過去の出力を固定 unit weight で加算し続けるため、depth が深くなるにつれて hidden state の成長と各 layer の寄与の希薄化を招くと述べている。

residual pathを作り直す発想

提案されている解決策が Attention Residuals (AttnRes) だ。過去の layer 出力を一様に足す代わりに、現在の layer が preceding state に softmax attention をかけ、input-dependent な weight で selective aggregation を行う。つまり、model はすべての過去 representation を等しく受け継ぐのではなく、現在の入力にとって重要な layer を選んで強調できるようになる。著者たちはこれを、deep PreNorm stack における fixed-sum 的な振る舞いを弱める方法として位置づけている。

当然、systems 面の反論もある。すべての過去 layer に attention を向ければ cost は高い。そこで論文は Block AttnRes も導入する。block-level representation を使うことで memory と communication overhead を下げつつ、full AttnRes の利点を大きく保つという考え方だ。architecture のアイデアは paper 上では美しく見えても、training cost の前で崩れやすい。その意味で、この論文は implementation story を最初から論点に含めている。

なぜRedditで議論になったのか

投稿によれば、この方式は Kimi Linear にも組み込まれ、48B total / 3B activated parameter の構成で 1.4T tokens を使って pre-train された。論文は downstream performance の改善、depth 全体でより均一な output magnitude、より揃った gradient distribution を主張している。コメント欄では、ある読者が「かなり直感的な発想で、むしろ今まで強く試されてこなかったのが不思議だ」と述べた。一方で別の読者は、改善が residual redesign そのものによるのか、それとも parameter や compute budget の違いによるのかを切り分ける必要があると指摘している。

このやり取りこそが thread の価値だ。次の LLM の改善は context length や post-training recipe だけでなく、すでに解決済みと思われていた transformer の plumbing を見直すところから来るかもしれない、という研究テーマをはっきり示しているからだ。AttnRes は background に消えがちな residual connection を再び前面に戻し、r/MachineLearning がこれを単なる小さな tweak 以上のものとして扱った理由もそこにある。

r/MachineLearningで注目のAttention Residuals、KimiがPreNorm residualのボトルネックに切り込む

residual pathを作り直す発想

なぜRedditで議論になったのか

Related Articles

2枚のRTX 4090でOpen LLM Leaderboard上位に入った7-layer duplication実験

r/MachineLearningでは、全面的にAIで書かれたように見えるICML投稿への反発が広がった

NVIDIA、Nemotron 3 Superを公開 1M context と最大5倍 throughput で agentic AI を狙う

Comments (0)

Leave a Comment

Related Articles

2枚のRTX 4090でOpen LLM Leaderboard上位に入った7-layer duplication実験

r/MachineLearningでは、全面的にAIで書かれたように見えるICML投稿への反発が広がった

NVIDIA、Nemotron 3 Superを公開 1M context と最大5倍 throughput で agentic AI を狙う