Fable 5 jailbreak、可否論からseverity scoringへ
Original: More details on Fable 5’s cyber safeguards and our jailbreak framework View original →
AI jailbreakは、スクリーンショットで騒ぐ話から、インシデントとして採点する話へ移っている。Anthropicは2026年7月2日、Fable 5のサイバー安全策とjailbreak severity frameworkを公開し、回避手法を「成功したか」ではなく、どの程度危険なのかで分類すべきだと示した。政府審査とfrontier modelの公開が重なるなか、必要なのは曖昧な警戒ではなく、同じ言葉でリスクを説明する尺度である。
背景にあるのは、6月のFable 5アクセス制限だ。Anthropicによると、Amazon研究者の報告では、Fable 5の安全策を迂回してソフトウェア脆弱性を特定し、あるケースではその脆弱性を悪用するデモコードを生成できた。Anthropicの追加テストでは、同じ脆弱性の特定はClaude Opus 4.8、GPT-5.5、Kimi K2.7など、より低い能力のモデルでも可能だったという。悪用デモについても、同社が試したすべてのモデルで同じ出力が得られたとしている。
新しい対策は、その報告手法を狙ったsafety classifierである。Anthropicは、このclassifierがAmazon報告の特定手法を99%超のケースで遮断すると説明する。遮断されたFable 5へのリクエストはOpus 4.8へ送られる。一方で副作用もある。通常のコーディングやデバッグ依頼でも、無害なリクエストが以前より多く止まる可能性を同社は認めている。サイバーリスクを下げるほど、正当な開発作業の摩擦が増える問題は残る。
frameworkは、サイバー利用をprohibited use、high-risk dual use、low-risk dual use、benign useなどに分け、jailbreakがどの境界を越えたかで重大度を測る。AnthropicはFable 5のcyber jailbreakを受け付けるHackerOne programも開いた。
論点はFable 5だけではない。AnthropicはGlasswing partnersとこの基準を進めていると説明する。frontier modelの公開が政府や企業の事前確認を受けるなら、「jailbreak」という一語では不十分だ。次に見るべきなのは、他のAI企業、セキュリティ研究者、規制当局がこのseverity languageを共通基盤として受け入れるかである。出典: Anthropic、2026年7月2日.
Related Articles
AI悪用の焦点はフィッシング文面から侵入後の自動化へ移っている。Anthropicは832の悪性アカウントをMITRE ATT&CKに対応付け、中リスク以上の比率が33%から56%へ上がったと示した。
Anthropicは2026年3月6日、Claude Opus 4.6がFirefox脆弱性CVE-2026-2796のテスト用exploitを作成した過程を公開した。Anthropicはこれを実運用の攻撃自動化ではなく、frontier modelのcyber capabilityがどこまで近づいているかを示す早期警告として位置づけている。
AnthropicのEconomic Indexは、Claudeのusage telemetryとsurveyを結び、AI delegationと仕事への見方を測った。Claude Code sessionはchat・Coworkより1-5 scaleで平均0.37 points高いautonomyを示し、linked sampleは約9,700人だった。