Hacker Newsが追う、Transformer depth改善を狙うMoonshot AIの Attention Residuals

Original: Attention Residuals View original →

Read in other languages: 한국어English
LLM Mar 21, 2026 By Insights AI (HN) 1 min read Source

2026年3月20日、Hacker NewsのAttention Residuals投稿は114 pointsまで伸びた。巨大な製品ローンチほどの規模ではないが、テーマはHacker Newsが繰り返し反応する種類だ。論文の上では小さなarchitectural changeに見えても、実際にはlarge language modelのdepth利用を組み替える可能性があるからだ。

論文と公式repositoryは、PreNorm構造のよく知られた不満から出発する。標準residual connectionは、前のlayer outputを固定unit weightで加え続ける。modelが深くなるほどhidden-state magnitudeは大きくなり、各layerの寄与は薄まる。Attention Residuals、つまりAttnResは、この固定加算を以前のlayer outputに対するsoftmax attentionへ置き換え、現在のinputに応じて何を再利用するかをlayerごとに選ばせる。

コミュニティが注目した理由

ポイントは単にattentionを増やすことではない。著者らはBlock AttnResも提示している。layerをblockに分け、すべての過去layerではなくblock-level representationに対してattentionをかけることで、memory burdenをO(Ld)からO(Nd)に下げる。これにより、面白いresearch ideaではなく、実際に試せるdrop-in replacementとして見えてくる。

  • scaling law実験では、compute budgetとmodel size全体で一貫した改善が報告されている。
  • repositoryによれば、Block AttnResは1.25x多いcomputeで学習したbaselineと同等のlossに届く。
  • 48B total / 3B activated parametersのKimi Linearを1.4T tokensでpre-trainした設定では、MMLUが73.5から74.6、GPQA-Diamondが36.9から44.4、HumanEvalが59.1から62.2へ改善したとされる。

こうした結果はHacker News読者に刺さりやすい。曖昧な「better reasoning」ではなく、depthをどう集約するかという具体的な変更、効率化の工夫、そして検証可能なbenchmark deltaがそろっているからだ。AttnResがMoonshot AIのstack外でも有効なら、今後のTransformerやlinear-attention modelでresidual designを見直す議論を再燃させるかもしれない。

出典: Hacker News thread, official repo, arXiv paper.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.