Δ-Mem:8×8の小型オンラインメモリでLLMの長期記憶課題を解決
Original: Δ-Mem: Efficient Online Memory for Large Language Models View original →
解決する問題
長期アシスタントやエージェントシステムにおいて、LLMは過去の情報を効果的に蓄積・再利用することが難しい。コンテキストウィンドウの単純な拡大はコストが高く、遠いコンテキストの活用も保証されない。
Δ-Memのアプローチ
Δ-Memは凍結されたLLMバックボーンにデルタ規則学習で更新される固定サイズの状態行列を追加する。このオンラインメモリ状態が生成時のアテンション計算に低ランク補正を加え、長期記憶を実現する。完全な微調整やアーキテクチャの置き換えなしに効果的なメモリを実装できる点が核心だ。
性能結果
わずか8×8のオンラインメモリ状態にもかかわらず、顕著な成果を示す。凍結ベースラインに対して1.10倍、非Δ-Memベースラインに対して1.15倍の全般的な性能向上、MemoryAgentBenchで1.31倍、LoCoMoで1.20倍の改善を達成し、一般的な能力も維持している。
意義
Δ-Memは、効果的なメモリがアテンションに直接結合された小型オンライン状態で実現できることを証明した。完全な再訓練や別途のメモリモジュールなしに、既存のデプロイ済みモデルへの軽量な記憶拡張として適用できる可能性を示している。
Related Articles
フィールズ賞受賞数学者のTimothy Gowersが、ChatGPT 5.5 Proで未解決の数学問題に挑戦し、約1時間で博士レベルの証明を生成させた。現在のAI進歩速度では数学研究が近く危機を迎えると警告している。
新ベンチマーク「DELEGATE-52」の研究によると、Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4などの最先端LLMでも、長い委任ワークフローで文書内容の平均25%を静かに損傷させることが明らかになった。
2026年3月20日のHacker NewsではAttention Residualsが議論され、固定residual additionの代わりにlearned depth-wise attentionを使う発想と、低いoverheadでの実装可能性が注目された。
Comments (0)
No comments yet. Be the first to comment!