Fable 5 jailbreak、可否論からseverity scoringへ

AI jailbreakは、スクリーンショットで騒ぐ話から、インシデントとして採点する話へ移っている。Anthropicは2026年7月2日、Fable 5のサイバー安全策とjailbreak severity frameworkを公開し、回避手法を「成功したか」ではなく、どの程度危険なのかで分類すべきだと示した。政府審査とfrontier modelの公開が重なるなか、必要なのは曖昧な警戒ではなく、同じ言葉でリスクを説明する尺度である。

背景にあるのは、6月のFable 5アクセス制限だ。Anthropicによると、Amazon研究者の報告では、Fable 5の安全策を迂回してソフトウェア脆弱性を特定し、あるケースではその脆弱性を悪用するデモコードを生成できた。Anthropicの追加テストでは、同じ脆弱性の特定はClaude Opus 4.8、GPT-5.5、Kimi K2.7など、より低い能力のモデルでも可能だったという。悪用デモについても、同社が試したすべてのモデルで同じ出力が得られたとしている。

新しい対策は、その報告手法を狙ったsafety classifierである。Anthropicは、このclassifierがAmazon報告の特定手法を99%超のケースで遮断すると説明する。遮断されたFable 5へのリクエストはOpus 4.8へ送られる。一方で副作用もある。通常のコーディングやデバッグ依頼でも、無害なリクエストが以前より多く止まる可能性を同社は認めている。サイバーリスクを下げるほど、正当な開発作業の摩擦が増える問題は残る。

frameworkは、サイバー利用をprohibited use、high-risk dual use、low-risk dual use、benign useなどに分け、jailbreakがどの境界を越えたかで重大度を測る。AnthropicはFable 5のcyber jailbreakを受け付けるHackerOne programも開いた。

論点はFable 5だけではない。AnthropicはGlasswing partnersとこの基準を進めていると説明する。frontier modelの公開が政府や企業の事前確認を受けるなら、「jailbreak」という一語では不十分だ。次に見るべきなのは、他のAI企業、セキュリティ研究者、規制当局がこのseverity languageを共通基盤として受け入れるかである。出典: Anthropic、2026年7月2日.

Fable 5 jailbreak、可否論からseverity scoringへ

Related Articles

Anthropicの832アカウント分析、AI攻撃が侵入後オペレーションへ深く移る構造変化を示す新証拠

Anthropic、ClaudeがFirefox脆弱性をテスト用exploitに変換した事例を公開

Claude Code利用でautonomy上昇、Anthropicが仕事への影響をusage dataで再測定

Related Articles

Anthropicの832アカウント分析、AI攻撃が侵入後オペレーションへ深く移る構造変化を示す新証拠
AI X/Twitter Jun 4, 2026 1 min read

Anthropic、ClaudeがFirefox脆弱性をテスト用exploitに変換した事例を公開
AI Mar 7, 2026 1 min read

Claude Code利用でautonomy上昇、Anthropicが仕事への影響をusage dataで再測定