Anthropic、Responsible Scaling Policy 3.0を公開
Original: Anthropic Updates Responsible Scaling Policy to Version 3.0 View original →
RSP 3.0公開の背景
Anthropicは2026年2月24日、AIの破局的リスクを管理するための自主的枠組みであるResponsible Scaling Policy(RSP)の3.0版を発表した。2023年から運用してきた経験を踏まえ、機能した要素を維持しながら、課題が見えた部分を再設計したのが今回の更新だ。会社が強調したのは、モデル能力の進化に合わせて安全運用を継続的に改訂し、その判断プロセスをより公開可能にすることだった。
従来構造と課題認識
RSPは「if-then」の条件型コミットメントで構成され、能力閾値を超えた場合に追加的な安全策を適用する。これはAI Safety Level(ASL)として整理され、ASL-2とASL-3では比較的具体的な運用実績が積み上がった。一方で、より高い段階(ASL-4以降)では、評価の不確実性や実装コスト、政策・業界連携の必要性が増し、単一企業だけでの対応には構造的な限界があるという認識が示された。
3.0での主な変更点
- 二層の緩和策: Anthropicが単独で実施する対策と、業界全体での実装を前提とする推奨策を分離して提示。
- Frontier Safety Roadmap: Security、Alignment、Safeguards、Policyの各領域で目標と進捗を公開。
- Risk Report: 能力・脅威モデル・緩和策の関係を体系的に文書化し、条件に応じて第三者レビューを実施。
Risk Reportは原則として公開しつつ、法務・安全・プライバシー上必要な範囲で限定的に編集される可能性があるとしている。
業界へのインパクト
今回の改訂が重要なのは、「単独で実行可能な安全策」と「業界・政策協調が必要な安全策」を明確に分けた点にある。これは、フロンティアモデルの能力上昇に伴って単独対策だけでは限界が見え始める局面に対応した設計といえる。Frontier Safety RoadmapとRisk Reportの導入により、抽象的な安全原則を運用可能な継続プロセスへ落とし込む方向性がより鮮明になった。
Related Articles
Anthropicは2026年3月5日、Department of Warから供給網リスク指定の通知を受けたと発表した。対象範囲は限定的だと説明しつつ、法的争訟と移行支援を並行する方針を示している。
AnthropicはFrontier Safety Roadmapを公開し、Security、Safeguards、Alignment、Policyの各領域で期限付き目標を示した。ASL-3 protectionsの継続と、2027年に向けた監視・政策対応の強化が中核となる。
Anthropicは2026年2月24日、Responsible Scaling Policy Version 3.0を公開した。ASLフレームを維持しつつ、閾値判定が曖昧になる高リスク領域での運用方法を透明性重視に改めた。
Comments (0)
No comments yet. Be the first to comment!