LLM Hacker News May 16, 2026 1 min read
新しいarXiv論文Δ-Memが、デルタ規則学習で更新される固定サイズの状態行列により、凍結されたLLMに長期記憶を付与する手法を提案した。MemoryAgentBenchで基準比1.31倍の性能向上を達成している。
新しいarXiv論文Δ-Memが、デルタ規則学習で更新される固定サイズの状態行列により、凍結されたLLMに長期記憶を付与する手法を提案した。MemoryAgentBenchで基準比1.31倍の性能向上を達成している。
r/MachineLearning の投稿は、dot-product attention を距離ベースの RBF-Attention に置き換えたとき、理論よりも実装の連鎖的な破綻が大きいことを具体的に示した。
2026年3月20日のHacker NewsではAttention Residualsが議論され、固定residual additionの代わりにlearned depth-wise attentionを使う発想と、低いoverheadでの実装可能性が注目された。
Kimi TeamのAttnRes論文は、PreNorm residualが過去のlayer出力を固定重みで足し続けることで、深いstackで情報を薄めると主張する。解決策として、layer間のselective aggregationとコストを抑えるBlock AttnResが提示されている。
r/MachineLearningで注目された投稿は、Attentionの本質をd^2最適化幾何として説明する非公式主張を共有した。反応は関心と懐疑が並存し、査読と再現性の確認が必須だという意見が優勢だった。