Anthropic、RSP v3.1 の文言を明確化し Frontier Safety Roadmap の進捗も更新
Original: Anthropic's Responsible Scaling Policy View original →
Anthropicの2026年4月2日の Responsible Scaling Policy 更新は、一見すると小さな修正に見えるが重要だ。RSP の文言は、frontier lab が risk threshold をどう解釈しているかを外部に示す公開シグナルになりつつあるからだ。Anthropicは v3.1 で policy の実質を大きく変えていないと説明する一方、外部が注視していた二つの点を引き締めた。AI R&D capability threshold の意味と、threshold に達していなくても development を slow down あるいは pause できる裁量の範囲だ。
最初の明確化は v3.0 にあった曖昧さへの対応だ。Anthropicは、AI が “doubling the rate of progress” するという表現が、aggregate AI progress を指すのか、それとも individual researcher productivity を倍増させることを指すのか、二通りに読める可能性があったと述べている。v3.1 では前者を意味すると明確にした。これは単なる言い換えではなく、より強い safeguards や review がいつ必要になるかという trigger の解釈に直接関わる。
二つ目の修正は governance に関わる。Anthropicは、RSP が特定の行動を明示的に要求していない場合でも、状況に応じてより強い措置を取る自由があり、その中には AI systems の development を pause することも含まれると、よりはっきり書き加えた。実務的には、threshold rule を caution の上限として読まれたくないという意思表示だ。policy の文面にない状況でも、management discretion で保守的な判断を行えると公開した形になる。
今回の更新は Frontier Safety Roadmap の進捗ともつながっている。Anthropicは、roadmap に記載していた planned moonshot R&D projects をすでに開始しており、今後は “launch” 自体ではなく ongoing work に対するより具体的な goal に置き換えたと説明する。さらに、data retention policy の見直しによって safeguards をどう改善できるかを整理する comprehensive internal report も完了したという。手続き的な更新に見えても、roadmap が単なる対外約束ではなく operational document として使われていることを示している。
Anthropicは RSP を living document と改めて位置づけ、実運用から学ぶ内容に応じて今後も修正を続けるとしている。この姿勢は、3月24日の noncompliance reporting and anti-retaliation policy 更新や、2月24日に公開した Frontier Safety Roadmaps と Risk Reports を含む RSP v3.0 と整合的だ。
より大きな意味で見ると、frontier lab の競争は model capability や product reach だけではなく、safety trigger をどれだけ読みやすく外部に示せるかにも広がっている。Anthropicが threshold 定義と pause 裁量を明確化したのは、今後さらに強力な model release が続く中で、それらの基準が理論ではなく実際の意思決定ルールとして読まれることを見据えた対応だと言える。
Related Articles
AI-enabled attacks are shifting from setup work into post-compromise operations. Anthropic mapped 832 malicious accounts to MITRE ATT&CK and found medium-or-higher risk actors rising from 33% to 56%.
AI self-improvement is moving from speculation into measurable lab workflow data. Anthropic says Mythos Preview reached about 52x speedups on an optimization task and beat human next-step choices 64% of the time.
Anthropic published Responsible Scaling Policy Version 3.0 on February 24, 2026. The update keeps the ASL framework but retools how commitments are managed when capability thresholds are hard to measure unambiguously.