Hacker Newsが追う、Transformer depth改善を狙うMoonshot AIの Attention Residuals

2026年3月20日、Hacker NewsのAttention Residuals投稿は114 pointsまで伸びた。巨大な製品ローンチほどの規模ではないが、テーマはHacker Newsが繰り返し反応する種類だ。論文の上では小さなarchitectural changeに見えても、実際にはlarge language modelのdepth利用を組み替える可能性があるからだ。

論文と公式repositoryは、PreNorm構造のよく知られた不満から出発する。標準residual connectionは、前のlayer outputを固定unit weightで加え続ける。modelが深くなるほどhidden-state magnitudeは大きくなり、各layerの寄与は薄まる。Attention Residuals、つまりAttnResは、この固定加算を以前のlayer outputに対するsoftmax attentionへ置き換え、現在のinputに応じて何を再利用するかをlayerごとに選ばせる。

コミュニティが注目した理由

ポイントは単にattentionを増やすことではない。著者らはBlock AttnResも提示している。layerをblockに分け、すべての過去layerではなくblock-level representationに対してattentionをかけることで、memory burdenをO(Ld)からO(Nd)に下げる。これにより、面白いresearch ideaではなく、実際に試せるdrop-in replacementとして見えてくる。

scaling law実験では、compute budgetとmodel size全体で一貫した改善が報告されている。
repositoryによれば、Block AttnResは1.25x多いcomputeで学習したbaselineと同等のlossに届く。
48B total / 3B activated parametersのKimi Linearを1.4T tokensでpre-trainした設定では、MMLUが73.5から74.6、GPQA-Diamondが36.9から44.4、HumanEvalが59.1から62.2へ改善したとされる。

こうした結果はHacker News読者に刺さりやすい。曖昧な「better reasoning」ではなく、depthをどう集約するかという具体的な変更、効率化の工夫、そして検証可能なbenchmark deltaがそろっているからだ。AttnResがMoonshot AIのstack外でも有効なら、今後のTransformerやlinear-attention modelでresidual designを見直す議論を再燃させるかもしれない。

出典: Hacker News thread, official repo, arXiv paper.

Hacker Newsが追う、Transformer depth改善を狙うMoonshot AIの Attention Residuals

コミュニティが注目した理由

Related Articles

Δ-Mem：8×8の小型オンラインメモリでLLMの長期記憶課題を解決

フィールズ賞数学者「GPT-5.5 Proが博士レベルの証明を生成」——数学研究に危機迫る

委任ワークフローでLLMが文書の25%を損傷——研究が警告

Comments (0)

Leave a Comment