Anthropicの4月14日のX投稿は、alignment研究の自動化を抽象論ではなく測定された実験として示した点で重要だ。同社はtweetで "developing an Automated Alignment Researcher" と書き、Claude Opus 4.6が、弱いAIで強いAIを監督する問題をどこまで進められるかを試したと説明した。作成時刻は2026年4月14日19:39:26 UTCで、今回の48時間条件を満たしている。

焦点はweak-to-strong supervisionだ。人間や弱いモデルが、より強いモデルのすべての失敗を直接見抜けない場合でも、強いモデルを安全に訓練できるのかという問題である。Anthropicの研究記事では、Automated Alignment Researcherが強いsupervised baselineとの差の97%を回復し、人間研究者の時間コストは約1/100だったと説明している。これはalignmentが解けたという話ではなく、長時間動くresearch agentが仮説、実装、評価の反復に入り始めたというシグナルだ。

AnthropicAIの公式アカウントは、Claudeの製品情報だけでなく、interpretability、alignment、policy関連の研究を継続して共有している。今回もAnthropic Fellowsの研究で、実験コードと資料はGitHub repositoryに公開されている。外部研究者が設定、評価、コスト計算を検証できる点は、この種の主張では特に大きい。

次に見るべき点は再現性と範囲だ。97%という結果が、別のalignment課題、別のmodel family、より長い探索期間でも成立するのかはまだ分からない。また、研究を進めるagent自体にどのようなlogging、review、stop conditionを置くべきかも重要になる。source tweetはこちらで確認できる。

#research-agents

AnthropicのOpus agent、weak-to-strong監督の差を97%まで回復