Hacker Newsが追う、Transformer depth改善を狙うMoonshot AIの Attention Residuals
Original: Attention Residuals View original →
2026年3月20日、Hacker NewsのAttention Residuals投稿は114 pointsまで伸びた。巨大な製品ローンチほどの規模ではないが、テーマはHacker Newsが繰り返し反応する種類だ。論文の上では小さなarchitectural changeに見えても、実際にはlarge language modelのdepth利用を組み替える可能性があるからだ。
論文と公式repositoryは、PreNorm構造のよく知られた不満から出発する。標準residual connectionは、前のlayer outputを固定unit weightで加え続ける。modelが深くなるほどhidden-state magnitudeは大きくなり、各layerの寄与は薄まる。Attention Residuals、つまりAttnResは、この固定加算を以前のlayer outputに対するsoftmax attentionへ置き換え、現在のinputに応じて何を再利用するかをlayerごとに選ばせる。
コミュニティが注目した理由
ポイントは単にattentionを増やすことではない。著者らはBlock AttnResも提示している。layerをblockに分け、すべての過去layerではなくblock-level representationに対してattentionをかけることで、memory burdenをO(Ld)からO(Nd)に下げる。これにより、面白いresearch ideaではなく、実際に試せるdrop-in replacementとして見えてくる。
- scaling law実験では、compute budgetとmodel size全体で一貫した改善が報告されている。
- repositoryによれば、Block AttnResは1.25x多いcomputeで学習したbaselineと同等のlossに届く。
- 48B total / 3B activated parametersのKimi Linearを1.4T tokensでpre-trainした設定では、MMLUが73.5から74.6、GPQA-Diamondが36.9から44.4、HumanEvalが59.1から62.2へ改善したとされる。
こうした結果はHacker News読者に刺さりやすい。曖昧な「better reasoning」ではなく、depthをどう集約するかという具体的な変更、効率化の工夫、そして検証可能なbenchmark deltaがそろっているからだ。AttnResがMoonshot AIのstack外でも有効なら、今後のTransformerやlinear-attention modelでresidual designを見直す議論を再燃させるかもしれない。
Related Articles
Kimi TeamのAttnRes論文は、PreNorm residualが過去のlayer出力を固定重みで足し続けることで、深いstackで情報を薄めると主張する。解決策として、layer間のselective aggregationとコストを抑えるBlock AttnResが提示されている。
Google DeepMindは2026年3月3日、Gemini 3.1 Flash-Liteを高頻度・低遅延ワークロード向けmodelとして提示した。会社は128k input、8k output、multimodal input、native audio generation、そして$0.10/$0.40水準のtoken pricingを強調している。
100個未満のパラメータを持つ超小型Transformerモデルが、2つの10桁の数字の足し算で100%の精度を達成したという興味深い研究結果が公開されました。桁トークン化が鍵となっています。
Comments (0)
No comments yet. Be the first to comment!