Anthropic、RSP v3.1 の文言を明確化し Frontier Safety Roadmap の進捗も更新
Original: Anthropic's Responsible Scaling Policy View original →
Anthropicの2026年4月2日の Responsible Scaling Policy 更新は、一見すると小さな修正に見えるが重要だ。RSP の文言は、frontier lab が risk threshold をどう解釈しているかを外部に示す公開シグナルになりつつあるからだ。Anthropicは v3.1 で policy の実質を大きく変えていないと説明する一方、外部が注視していた二つの点を引き締めた。AI R&D capability threshold の意味と、threshold に達していなくても development を slow down あるいは pause できる裁量の範囲だ。
最初の明確化は v3.0 にあった曖昧さへの対応だ。Anthropicは、AI が “doubling the rate of progress” するという表現が、aggregate AI progress を指すのか、それとも individual researcher productivity を倍増させることを指すのか、二通りに読める可能性があったと述べている。v3.1 では前者を意味すると明確にした。これは単なる言い換えではなく、より強い safeguards や review がいつ必要になるかという trigger の解釈に直接関わる。
二つ目の修正は governance に関わる。Anthropicは、RSP が特定の行動を明示的に要求していない場合でも、状況に応じてより強い措置を取る自由があり、その中には AI systems の development を pause することも含まれると、よりはっきり書き加えた。実務的には、threshold rule を caution の上限として読まれたくないという意思表示だ。policy の文面にない状況でも、management discretion で保守的な判断を行えると公開した形になる。
今回の更新は Frontier Safety Roadmap の進捗ともつながっている。Anthropicは、roadmap に記載していた planned moonshot R&D projects をすでに開始しており、今後は “launch” 自体ではなく ongoing work に対するより具体的な goal に置き換えたと説明する。さらに、data retention policy の見直しによって safeguards をどう改善できるかを整理する comprehensive internal report も完了したという。手続き的な更新に見えても、roadmap が単なる対外約束ではなく operational document として使われていることを示している。
Anthropicは RSP を living document と改めて位置づけ、実運用から学ぶ内容に応じて今後も修正を続けるとしている。この姿勢は、3月24日の noncompliance reporting and anti-retaliation policy 更新や、2月24日に公開した Frontier Safety Roadmaps と Risk Reports を含む RSP v3.0 と整合的だ。
より大きな意味で見ると、frontier lab の競争は model capability や product reach だけではなく、safety trigger をどれだけ読みやすく外部に示せるかにも広がっている。Anthropicが threshold 定義と pause 裁量を明確化したのは、今後さらに強力な model release が続く中で、それらの基準が理論ではなく実際の意思決定ルールとして読まれることを見据えた対応だと言える。
Related Articles
OpenAIはAI-enabledな児童性的搾取への対応を目的とする policy blueprint を4月8日に公開した。法制度の更新、provider reporting の改善、AI system への safety-by-design 実装を一体で進める枠組みだ。
AnthropicはMar 11, 2026、The Anthropic Instituteを立ち上げ、frontier AIが経済、法制度、安全保障、社会へ与える影響を本格的に研究すると発表した。model builderの内部観測を、より公開された研究と対話へつなげる試みだ。
Anthropicは2026年4月7日のXで、AWS、Apple、Google、Microsoft、NVIDIAなどとProject Glasswingを立ち上げると発表した。Anthropicによると、この取り組みではClaude Mythos Previewを防御的cybersecurity workflowに投入し、最大1億ドルのusage creditsと400万ドルの寄付を組み合わせてcritical softwareの保護を進める。
Comments (0)
No comments yet. Be the first to comment!