AnthropicのセキュリティAI「Mythos」、脆弱性チェーン攻撃を自動生成

Project Glasswingとは

Project Glasswingは、Anthropicが汎用フロンティアモデルとは別に開発したセキュリティ特化LLM「Mythos Preview」を選定された組織に提供する制御された研究プログラムです。Cloudflareは同プログラムに参加し、自社インフラを対象にMythosを実戦評価。その結果をブログで公開しました。

Mythosの核心的能力

エクスプロイトチェーン構築： Mythosは複数の低深刻度脆弱性プリミティブを連結し、単一のより深刻なエクスプロイトを生成できます。これは自動スキャナーではなく、シニアセキュリティ研究者レベルの推論です。

証明生成： コードを作成・コンパイル・実行して脆弱性を検証します。初期仮説が失敗した場合は自律的に反復修正します。

Cloudflareの8段階ハーネス

Recon： アーキテクチャマッピングと初期タスクキュー
Hunt： 特定の攻撃クラスをターゲットにする~50の並列エージェント
Validate： 誤検知フィルタリングのための独立した敵対的レビュー
Gapfill： 未探索エリアの再キューイング
Dedupe： 重複発見の統合
Trace： クロスリポジトリの悪用可能性分析
Feedback： 検証済み発見を次のハンティングサイクルにフィードバック
Report： 構造化された出力生成

限界とデュアルユースの警告

標準的なガードレールがないにもかかわらず、Mythosは正当なセキュリティタスクで予測不可能な拒否反応を示しました。Cloudflareは明示的に警告しています：これらの能力はいずれ攻撃者も手にするでしょう。推奨は素早いパッチ適用よりも防御的アーキテクチャへの転換です。

AnthropicのセキュリティAI「Mythos」、脆弱性チェーン攻撃を自動生成 — Cloudflare検証

Project Glasswingとは

Mythosの核心的能力

Cloudflareの8段階ハーネス

限界とデュアルユースの警告

Related Articles

GitHub、LLM文脈検証でsecret scanningの誤検知75.76%減を示すセキュリティ運用改善

GitLost、公開Issueからprivate repoへ届くAI agent権限の弱点

AnthropicのJ-space研究、Claude内部の隠れた目標を読む手がかりに