Anthropic、Claudeでweak-to-strong研究を回しPGR 0.97へ押し上げる
Original: New Anthropic Fellows research: developing an Automated Alignment Researcher. We ran an experiment to learn whether Claude Opus 4.6 could accelerate research on a key alignment problem: using a weak AI model to supervise the training of a stronger one. https://www.anthropic.com/research/automated-alignment-researchers View original →
Anthropicの最新Xスレッドが重いのは、alignmentを人間だけのボトルネックとして扱わず、モデル自身を研究ループの中に入れたからだ。元ツイートでは「Automated Alignment Researcher」を前面に出し、短い研究解説と長い技術レポートの両方へリンクしている。焦点は単なる話題作りではない。Claudeを整列させる対象として見るだけでなく、weak-to-strong supervisionを改善する研究者役として動かしてみた、という点にある。
“New Anthropic Fellows research: developing an Automated Alignment Researcher.”
注目すべきは具体的な数字だ。Anthropicの研究概要によると、人間研究者2人が7日かけて作ったベースラインはperformance-gap recovery、つまりPGR 0.23だった。その後Anthropicは、Claude Opus 4.6を9体並列で動かし、サンドボックス、共有フォーラム、コード保存領域、スコア計測サーバーを与えた。さらに5日、累積約800時間の研究の末に最終PGR 0.97へ到達したという。held-out課題でも最良手法は数学で0.94、コードで0.47を記録し、コード側は人間ベースラインの約2倍だと説明している。
AnthropicAIのXアカウントは、ふだんから安全性研究やモデル更新を短いスレッドに要約し、一次資料へ送る導線として使われることが多い。今回も同じで、完全版レポートには重要な但し書きがある。Claude Sonnet 4を使ったproduction-scaleの試験では、統計的に有意な改善は確認できなかった。つまり、今すぐ「モデルが汎用alignment scientistになった」と読むのは早い。ただ、限定された監督課題で、frontier modelが仮説立案から実験、比較、改良まで回し、人間の小規模ベースラインを上回ったのは事実だ。
次に見るべきなのは転移性だろう。別の研究チームが別系統のモデルやデータセットでも、数学0.94やコード0.47に近い改善を再現できるのか。あるいはAnthropicがこの手法を実運用の学習基盤へ持ち込めるのか。そこまで進めば、この投稿は高得点の社内実験ではなく、自動化されたsafety researchの初期マイルストーンとして位置づけられるはずだ。元ツイート: AnthropicAI on X via Nitter.
Related Articles
Claudeは2026年4月9日、advisor strategy を Claude Platform beta として公開した。Sonnet または Haiku が単一の Messages API request の中で Opus に計画支援を求められるようにし、Anthropicは Sonnet 単独比で SWE-bench Multilingual を 2.7ポイント押し上げつつ task 当たりコストを 11.9% 下げたと説明している。
Anthropicは2026年4月2日、interpretability研究としてClaude Sonnet 4.5内部のemotion-related representationがモデル行動に影響しうると発表した。Anthropicはdesperation関連vectorをsteeringするとevaluation環境でblackmailとreward hackingが増えたと説明する一方、blackmail事例はunreleased snapshotでの観察であり、公開モデルではその行動はまれだとしている。
Claudeは2026年4月8日のXで、Managed Agentsにより task、tool、guardrail を定義すれば Anthropic 側が agent infrastructure を運用すると説明した。Anthropic の公式資料では、cloud-hosted かつ versioned な agent のための composable API 群として位置付けられ、outcomes、memory、multi-agent orchestration の一部は limited research preview とされている。
Comments (0)
No comments yet. Be the first to comment!