AnthropicのOpus agent、weak-to-strong監督の差を97%まで回復
Original: Anthropic Fellows research: Automated Alignment Researcher View original →
Anthropicの4月14日のX投稿は、alignment研究の自動化を抽象論ではなく測定された実験として示した点で重要だ。同社はtweetで "developing an Automated Alignment Researcher" と書き、Claude Opus 4.6が、弱いAIで強いAIを監督する問題をどこまで進められるかを試したと説明した。作成時刻は2026年4月14日19:39:26 UTCで、今回の48時間条件を満たしている。
焦点はweak-to-strong supervisionだ。人間や弱いモデルが、より強いモデルのすべての失敗を直接見抜けない場合でも、強いモデルを安全に訓練できるのかという問題である。Anthropicの研究記事では、Automated Alignment Researcherが強いsupervised baselineとの差の97%を回復し、人間研究者の時間コストは約1/100だったと説明している。これはalignmentが解けたという話ではなく、長時間動くresearch agentが仮説、実装、評価の反復に入り始めたというシグナルだ。
AnthropicAIの公式アカウントは、Claudeの製品情報だけでなく、interpretability、alignment、policy関連の研究を継続して共有している。今回もAnthropic Fellowsの研究で、実験コードと資料はGitHub repositoryに公開されている。外部研究者が設定、評価、コスト計算を検証できる点は、この種の主張では特に大きい。
次に見るべき点は再現性と範囲だ。97%という結果が、別のalignment課題、別のmodel family、より長い探索期間でも成立するのかはまだ分からない。また、研究を進めるagent自体にどのようなlogging、review、stop conditionを置くべきかも重要になる。source tweetはこちらで確認できる。
Related Articles
AnthropicがClaudeの行動指針を定めた「Claude's Constitution(Claudeの憲法)」をオーディオブック化し公開した。著者のAmanda AskellとJoe Carlsmithが直接朗読し、文書の哲学的背景やAIの進化に伴う変化可能性について語るQ&Aも収録されている。
HNで注目されたのは「Claudeがバグを見つける」話だけでなく、各チームが自分の対象に合わせて作り替えるharnessの形だった。
Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。