Anthropic、Responsible Scaling Policy 3.0を公開

RSP 3.0公開の背景

Anthropicは2026年2月24日、AIの破局的リスクを管理するための自主的枠組みであるResponsible Scaling Policy（RSP）の3.0版を発表した。2023年から運用してきた経験を踏まえ、機能した要素を維持しながら、課題が見えた部分を再設計したのが今回の更新だ。会社が強調したのは、モデル能力の進化に合わせて安全運用を継続的に改訂し、その判断プロセスをより公開可能にすることだった。

従来構造と課題認識

RSPは「if-then」の条件型コミットメントで構成され、能力閾値を超えた場合に追加的な安全策を適用する。これはAI Safety Level（ASL）として整理され、ASL-2とASL-3では比較的具体的な運用実績が積み上がった。一方で、より高い段階（ASL-4以降）では、評価の不確実性や実装コスト、政策・業界連携の必要性が増し、単一企業だけでの対応には構造的な限界があるという認識が示された。

3.0での主な変更点

二層の緩和策: Anthropicが単独で実施する対策と、業界全体での実装を前提とする推奨策を分離して提示。
Frontier Safety Roadmap: Security、Alignment、Safeguards、Policyの各領域で目標と進捗を公開。
Risk Report: 能力・脅威モデル・緩和策の関係を体系的に文書化し、条件に応じて第三者レビューを実施。

Risk Reportは原則として公開しつつ、法務・安全・プライバシー上必要な範囲で限定的に編集される可能性があるとしている。

業界へのインパクト

今回の改訂が重要なのは、「単独で実行可能な安全策」と「業界・政策協調が必要な安全策」を明確に分けた点にある。これは、フロンティアモデルの能力上昇に伴って単独対策だけでは限界が見え始める局面に対応した設計といえる。Frontier Safety RoadmapとRisk Reportの導入により、抽象的な安全原則を運用可能な継続プロセスへ落とし込む方向性がより鮮明になった。

参考: RSP 3.0発表、Responsible Scaling Policy

Anthropic、Responsible Scaling Policy 3.0を公開

RSP 3.0公開の背景

従来構造と課題認識

3.0での主な変更点

業界へのインパクト

Related Articles

最高でもC+、AI Safety Indexが示す安全コミットメントの後退

Anthropic、AI雇用ショック研究に$200M 大規模実験へ軸足

Anthropic、Frontier Safety Roadmapで2026-2027年目標を提示

Related Articles

最高でもC+、AI Safety Indexが示す安全コミットメントの後退
AI Jul 7, 2026 1 min read

Anthropic、AI雇用ショック研究に$200M 大規模実験へ軸足

Anthropic、Frontier Safety Roadmapで2026-2027年目標を提示
AI Mar 5, 2026 1 min read