Anthropic、Responsible Scaling Policy 3.0を公開
Original: Anthropic Updates Responsible Scaling Policy to Version 3.0 View original →
RSP 3.0公開の背景
Anthropicは2026年2月24日、AIの破局的リスクを管理するための自主的枠組みであるResponsible Scaling Policy(RSP)の3.0版を発表した。2023年から運用してきた経験を踏まえ、機能した要素を維持しながら、課題が見えた部分を再設計したのが今回の更新だ。会社が強調したのは、モデル能力の進化に合わせて安全運用を継続的に改訂し、その判断プロセスをより公開可能にすることだった。
従来構造と課題認識
RSPは「if-then」の条件型コミットメントで構成され、能力閾値を超えた場合に追加的な安全策を適用する。これはAI Safety Level(ASL)として整理され、ASL-2とASL-3では比較的具体的な運用実績が積み上がった。一方で、より高い段階(ASL-4以降)では、評価の不確実性や実装コスト、政策・業界連携の必要性が増し、単一企業だけでの対応には構造的な限界があるという認識が示された。
3.0での主な変更点
- 二層の緩和策: Anthropicが単独で実施する対策と、業界全体での実装を前提とする推奨策を分離して提示。
- Frontier Safety Roadmap: Security、Alignment、Safeguards、Policyの各領域で目標と進捗を公開。
- Risk Report: 能力・脅威モデル・緩和策の関係を体系的に文書化し、条件に応じて第三者レビューを実施。
Risk Reportは原則として公開しつつ、法務・安全・プライバシー上必要な範囲で限定的に編集される可能性があるとしている。
業界へのインパクト
今回の改訂が重要なのは、「単独で実行可能な安全策」と「業界・政策協調が必要な安全策」を明確に分けた点にある。これは、フロンティアモデルの能力上昇に伴って単独対策だけでは限界が見え始める局面に対応した設計といえる。Frontier Safety RoadmapとRisk Reportの導入により、抽象的な安全原則を運用可能な継続プロセスへ落とし込む方向性がより鮮明になった。
Related Articles
Anthropicは2026年3月31日、豪州政府とAI safety研究およびAustralia National AI Plan支援に関するMOUを締結したと発表した。Australia AI Safety Instituteとの協力、Economic Indexデータ共有、豪州研究機関とのAUD$3 million規模の提携が含まれるとしている。
Axiosによると、NSAはAnthropicのMythos Previewを利用している。一方でPentagon幹部は同社をsupply-chain riskと見ており、AI safetyの制限と連邦政府のcybersecurity需要が衝突している。
r/artificialがこの研究に強く反応したのは、曖昧な AGI 終末論ではなく、もっと現実的な脅威像が示されたからだ。コミュニティに入り込み、合意があるように見せる AI persona swarm の話である。
Comments (0)
No comments yet. Be the first to comment!