Anthropic、Responsible Scaling Policy Version 3.0を公開しASL運用を再設計

改定の背景

Anthropicは2026年2月24日、Responsible Scaling Policy(RSP) Version 3.0を公表した。RSPは高度なAIシステムに伴うcatastrophic riskを抑えるための自主的フレームワークで、初版は2023年9月に公開されている。今回の更新は、方針そのものを否定するものではなく、実運用で得られた知見を反映して実行可能性を高めるための再設計という位置づけだ。

RSPの中心は、これまで通りconditionalな"if-then"コミットメントである。特定のcapability thresholdを超えた場合に、より厳しいsafeguardを適用する方式で、これはAI Safety Level(ASL)として整理される。AnthropicはASL-3保護を2025年5月に有効化し、その後もclassifierを含む防御手段を改善してきたと説明している。つまりRSPは対外声明ではなく、実際のモデル運用基準として機能してきた。

Version 3.0の要点

今回の改定で強調されたのは、最先端領域における"zone of ambiguity"への対応だ。とくにbiological riskのような領域では、モデル能力が危険域に到達したかを単純な合否で判断しにくい。Anthropicは追加の検証やwet-lab関連研究にも触れつつ、評価サイクルの長さとモデル進化の速さが政策トリガー運用を難しくしていると述べる。

この課題に対してVersion 3.0は、高ASLでただ厳しい約束を増やすのではなく、現在の環境でunilateralに実行可能な施策を明確化し、業界や政府とのmultilateral連携が必要な課題を分離する構成を採用した。さらにnonbinding but publicly-declared targetsの形で目標を公開し、進捗を公に評価する方針を打ち出している。

業界への示唆

Frontier AIの安全政策は、固定ルールよりも運用データに基づくliving policyへ移行している。
閾値評価の不確実性を公式に扱うことで、将来の規制設計でも評価方法の精緻化が求められる。
透明性の強化は短期的には課題を可視化するが、中長期では説明責任と信頼性を高める。

総じてRSP Version 3.0は、強い表現よりも検証可能な実装を優先した更新であり、他のAI開発企業にとっても実務上の参照モデルになり得る。

Anthropic、Responsible Scaling Policy Version 3.0を公開しASL運用を再設計

改定の背景

Version 3.0の要点

業界への示唆

Related Articles

Anthropic、Frontier Safety Roadmapで2026-2027年目標を提示

Anthropicの832アカウント分析、AI攻撃が侵入後オペレーションへ深く移る構造変化を示す新証拠

Anthropic、豪政府とAI safety研究・National AI Plan支援のMOUを締結

Related Articles

Anthropic、Frontier Safety Roadmapで2026-2027年目標を提示
AI Mar 5, 2026 1 min read

Anthropicの832アカウント分析、AI攻撃が侵入後オペレーションへ深く移る構造変化を示す新証拠
AI X/Twitter Jun 4, 2026 1 min read

Anthropic、豪政府とAI safety研究・National AI Plan支援のMOUを締結
AI X/Twitter Apr 1, 2026 1 min read