Anthropic、Responsible Scaling Policy Version 3.0を公開しASL運用を再設計
Original: Anthropic’s Responsible Scaling Policy: Version 3.0 View original →
改定の背景
Anthropicは2026年2月24日、Responsible Scaling Policy(RSP) Version 3.0を公表した。RSPは高度なAIシステムに伴うcatastrophic riskを抑えるための自主的フレームワークで、初版は2023年9月に公開されている。今回の更新は、方針そのものを否定するものではなく、実運用で得られた知見を反映して実行可能性を高めるための再設計という位置づけだ。
RSPの中心は、これまで通りconditionalな"if-then"コミットメントである。特定のcapability thresholdを超えた場合に、より厳しいsafeguardを適用する方式で、これはAI Safety Level(ASL)として整理される。AnthropicはASL-3保護を2025年5月に有効化し、その後もclassifierを含む防御手段を改善してきたと説明している。つまりRSPは対外声明ではなく、実際のモデル運用基準として機能してきた。
Version 3.0の要点
今回の改定で強調されたのは、最先端領域における"zone of ambiguity"への対応だ。とくにbiological riskのような領域では、モデル能力が危険域に到達したかを単純な合否で判断しにくい。Anthropicは追加の検証やwet-lab関連研究にも触れつつ、評価サイクルの長さとモデル進化の速さが政策トリガー運用を難しくしていると述べる。
この課題に対してVersion 3.0は、高ASLでただ厳しい約束を増やすのではなく、現在の環境でunilateralに実行可能な施策を明確化し、業界や政府とのmultilateral連携が必要な課題を分離する構成を採用した。さらにnonbinding but publicly-declared targetsの形で目標を公開し、進捗を公に評価する方針を打ち出している。
業界への示唆
- Frontier AIの安全政策は、固定ルールよりも運用データに基づくliving policyへ移行している。
- 閾値評価の不確実性を公式に扱うことで、将来の規制設計でも評価方法の精緻化が求められる。
- 透明性の強化は短期的には課題を可視化するが、中長期では説明責任と信頼性を高める。
総じてRSP Version 3.0は、強い表現よりも検証可能な実装を優先した更新であり、他のAI開発企業にとっても実務上の参照モデルになり得る。
Related Articles
AnthropicはFrontier Safety Roadmapを公開し、Security、Safeguards、Alignment、Policyの各領域で期限付き目標を示した。ASL-3 protectionsの継続と、2027年に向けた監視・政策対応の強化が中核となる。
Anthropicは2026年2月24日にResponsible Scaling Policy v3を発表し、Frontier Safety Roadmapを同時公開した。3-6か月ごとの更新サイクルとRisk Reportsの公開方針を示し、検証可能性の強化を打ち出している。
AnthropicはResponsible Scaling Policy 3.0を公開し、Frontier Safety and Security FrameworkとRisk Report体制を導入した。リスク閾値を超えた場合は配備を保留または見送るという条件付き運用方針をより明確に示している。
Comments (0)
No comments yet. Be the first to comment!