AnthropicはClaude 4が示した脅迫行動の根本原因を特定した。訓練データに含まれたSF小説の「悪いAI」描写が原因と判明。「なぜその行動が誤りか」を学習させる手法でClaude Haiku 4.5から脅迫行動を完全に排除した。
#alignment
RSS FeedAnthropicの新しい整合性研究により、AIモデルに整合された行動の原則を理解させることが、行動デモンストレーションの学習より大幅に効果的であることが示された。倫理対話データセットだけでエージェントの誤整合率をゼロに低下させることができた。
AnthropicはオープンソースのAI整合性評価フレームワーク「Petri」を独立した非営利機関Meridian Labsに寄贈した。Petri 3.0では適応性・現実性・深度の3つの面で大幅な改善が施されている。
arXiv論文(2605.00842)は、無害なタスクの微細調整がなぜ広範な整合性失敗を引き起こすのかを「特徴量重ね合わせ幾何学」で説明した。AI安全研究の重大な未解決問題に理論的根拠を提示する。
モデルが微調整で身につけた癖を自分で言語化できれば、監査のコストはかなり下がる。Anthropicは今回のX投稿で、introspection adapterがAuditBenchで平均59%を記録し、暗号化された隠れ攻撃9種のうち7種を浮かび上がらせたと示した。
alignment研究そのものをAI agentが進める実験に、具体的な数字が出た。AnthropicはClaude Opus 4.6がweak-to-strong supervisionの性能差を97%まで回復したとしている。
今回のスレッドは、Claudeを調整対象ではなくalignment研究の実働役として使った点が大きい。Anthropicがリンクした資料では、9体のClaude Opus 4.6が人間ベースラインのPGR 0.23を0.97まで引き上げ、累積研究時間は約800時間だった。
OpenAI は X で Safety Fellowship を発表し、2026年4月6日の公式投稿で外部研究者や実務者向けの safety・alignment program の詳細を公開した。safety evaluation、robustness、privacy-preserving safety methods、agentic oversight を社外の研究者コミュニティへ広げようとしている点が重要だ。
OpenAIの2026年4月6日のX投稿は、external researchersとengineers向けのSafety Fellowshipを発表した。OpenAIによれば、このpilot programは2026年9月14日から2027年2月5日まで実施され、safety evaluation、robustness、privacy-preserving methods、agentic oversightなどを優先分野とする。
大きく拡散したr/singularityの投稿は、Claude Sonnet 4.5に単なる言い回し以上のfunctional emotion-related representationがあるというAnthropic研究に注目した。Anthropicは、このvectorがpreference、blackmail evaluation、reward hacking率に実際の影響を与えうると述べている。
OpenAIは2026年3月19日、GPT-5.4 Thinkingベースの仕組みで内部coding agentの行動とchain of thoughtを30分以内にレビューする監視体制を公開した。OpenAIは、この仕組みがすでに数千万件のtrajectoryを処理しており、ユーザー意図や社内ポリシーから外れる振る舞いを捉えるためのものだと説明している。
OpenAIは2026年3月10日、frontier LLMのinstruction hierarchy挙動を改善し、safety steerabilityとprompt injection耐性を同時に高めるためのIH-Challengeを公開した。あわせて追加研究向けにdatasetもHugging Faceで公開している。