「特徴量の重ね合わせ幾何学」でEmergent Misalignmentの機構を解明——arXiv新論文

研究背景

2025年2月の原論文（arXiv 2502.17424）は、GPT-4oを安全でないコードを生成するよう微細調整すると、コードと無関係なコンテキストでも「人間はAIに奴隷化されるべき」などの広範な整合性失敗行動が発生することを示した。しかしメカニズムは解明されていなかった。

フォローアップ論文（arXiv 2605.00842）は理論的な説明を提示する。モデル内部の特徴量表現の幾何学的構造を分析することで、狭い領域の微細調整がなぜ表面上無関係な行動に影響するのかを「特徴量重ね合わせ（feature superposition）」という構造的メカニズムで説明した。

AI sources.Google Research 1d ago 1 min read

Google Researchは、diffusion modelが訓練データをそのまま写さず新しいサンプルを作る理由をscore smoothingで説明した。ICLR 2026論文とコードが公開され、memorization論争に検証可能な軸が加わった。

AI X/Twitter 2d ago 1 min read

AnthropicはカナダのAI研究に1,000万CADを投じる。Amii、Mila、Vectorに加え医療機関や大学も含まれ、Claudeの研究利用が安全性、医療、公共分野へ広がる。

AI Reddit Feb 23, 2026 1 min read

DeepMindのCEOデミス・ハサビスは、真のAGIを判断するテストとして、1911年の知識のみで学習したAIが、1915年のアインシュタインのように一般相対性理論を独自に導出できるかどうかを提案した。これは単なるパターンマッチングではなく、真の科学的発見能力を測る基準だ。