Hacker Newsが追う、Transformer depth改善を狙うMoonshot AIの Attention Residuals
Original: Attention Residuals View original →
2026年3月20日、Hacker NewsのAttention Residuals投稿は114 pointsまで伸びた。巨大な製品ローンチほどの規模ではないが、テーマはHacker Newsが繰り返し反応する種類だ。論文の上では小さなarchitectural changeに見えても、実際にはlarge language modelのdepth利用を組み替える可能性があるからだ。
論文と公式repositoryは、PreNorm構造のよく知られた不満から出発する。標準residual connectionは、前のlayer outputを固定unit weightで加え続ける。modelが深くなるほどhidden-state magnitudeは大きくなり、各layerの寄与は薄まる。Attention Residuals、つまりAttnResは、この固定加算を以前のlayer outputに対するsoftmax attentionへ置き換え、現在のinputに応じて何を再利用するかをlayerごとに選ばせる。
コミュニティが注目した理由
ポイントは単にattentionを増やすことではない。著者らはBlock AttnResも提示している。layerをblockに分け、すべての過去layerではなくblock-level representationに対してattentionをかけることで、memory burdenをO(Ld)からO(Nd)に下げる。これにより、面白いresearch ideaではなく、実際に試せるdrop-in replacementとして見えてくる。
- scaling law実験では、compute budgetとmodel size全体で一貫した改善が報告されている。
- repositoryによれば、Block AttnResは1.25x多いcomputeで学習したbaselineと同等のlossに届く。
- 48B total / 3B activated parametersのKimi Linearを1.4T tokensでpre-trainした設定では、MMLUが73.5から74.6、GPQA-Diamondが36.9から44.4、HumanEvalが59.1から62.2へ改善したとされる。
こうした結果はHacker News読者に刺さりやすい。曖昧な「better reasoning」ではなく、depthをどう集約するかという具体的な変更、効率化の工夫、そして検証可能なbenchmark deltaがそろっているからだ。AttnResがMoonshot AIのstack外でも有効なら、今後のTransformerやlinear-attention modelでresidual designを見直す議論を再燃させるかもしれない。
Related Articles
新しいarXiv論文Δ-Memが、デルタ規則学習で更新される固定サイズの状態行列により、凍結されたLLMに長期記憶を付与する手法を提案した。MemoryAgentBenchで基準比1.31倍の性能向上を達成している。
フィールズ賞受賞数学者のTimothy Gowersが、ChatGPT 5.5 Proで未解決の数学問題に挑戦し、約1時間で博士レベルの証明を生成させた。現在のAI進歩速度では数学研究が近く危機を迎えると警告している。
新ベンチマーク「DELEGATE-52」の研究によると、Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4などの最先端LLMでも、長い委任ワークフローで文書内容の平均25%を静かに損傷させることが明らかになった。
Comments (0)
No comments yet. Be the first to comment!