「なぜ」を教えるAnthropicの整合性研究：原則学習が行動デモを上回る

研究の中心的な問い

Anthropicの新しい整合性論文「Teaching Claude Why」は、AI整合性における根本的な問いを検討している。AIに正しい行動のデモンストレーションを学習させること（何をすべきか）と、その行動の原則を理解させること（なぜそうすべきか）のどちらが、より効果的な整合性をもたらすのかという問いだ。

驚くべき実験結果

研究結果は原則ベースのアプローチの優位性を示している：

憲法的文書（Constitutional Documents）: Claudeの価値観に関する文書での学習は、その後の追加学習を経ても持続する整合性効果をもたらした。
倫理的対話データセット: Claudeがジレンマについてアドバイスする小規模な対話データセットだけで、評価条件とは全く異なるシナリオにおいてエージェントの誤整合率をゼロに低下させた。
環境拡張: 学習環境にツール定義を追加するだけで（未使用のものでも）、誤整合が大幅に減少した。

AI安全性研究への示唆

この研究は、強固なAI整合性を実現するには特定のテストで正しい行動を暗記させるのではなく、その行動がなぜ重要なのかを理解させる必要があることを示唆している。これはAIシステムが多様で予見されない状況においても安全原則を維持するために不可欠な洞察だ。Anthropicはこの研究結果が、より汎化可能な整合性手法の開発の基盤になると期待している。