AnthropicのOpus agent、weak-to-strong監督の差を97%まで回復
Original: Anthropic Fellows research: Automated Alignment Researcher View original →
Anthropicの4月14日のX投稿は、alignment研究の自動化を抽象論ではなく測定された実験として示した点で重要だ。同社はtweetで "developing an Automated Alignment Researcher" と書き、Claude Opus 4.6が、弱いAIで強いAIを監督する問題をどこまで進められるかを試したと説明した。作成時刻は2026年4月14日19:39:26 UTCで、今回の48時間条件を満たしている。
焦点はweak-to-strong supervisionだ。人間や弱いモデルが、より強いモデルのすべての失敗を直接見抜けない場合でも、強いモデルを安全に訓練できるのかという問題である。Anthropicの研究記事では、Automated Alignment Researcherが強いsupervised baselineとの差の97%を回復し、人間研究者の時間コストは約1/100だったと説明している。これはalignmentが解けたという話ではなく、長時間動くresearch agentが仮説、実装、評価の反復に入り始めたというシグナルだ。
AnthropicAIの公式アカウントは、Claudeの製品情報だけでなく、interpretability、alignment、policy関連の研究を継続して共有している。今回もAnthropic Fellowsの研究で、実験コードと資料はGitHub repositoryに公開されている。外部研究者が設定、評価、コスト計算を検証できる点は、この種の主張では特に大きい。
次に見るべき点は再現性と範囲だ。97%という結果が、別のalignment課題、別のmodel family、より長い探索期間でも成立するのかはまだ分からない。また、研究を進めるagent自体にどのようなlogging、review、stop conditionを置くべきかも重要になる。source tweetはこちらで確認できる。
Related Articles
AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。
なぜ重要か。AIエージェントが会話デモから実際の取引代行へ進み始めたからだ。Anthropicは社内マーケット実験で69体のエージェントが500超の出品から186件をまとめ、取引額は4,000ドルを少し超えたと示した。
HNは一人の解約体験をただの愚痴として流さなかった。高いという不満より、慣れた開発フローの土台が静かに揺れる怖さの方が大きく共有された。
Comments (0)
No comments yet. Be the first to comment!