GPT-5.5、人間専門家12時間の企業ネットワーク攻撃シミュレーションを11分で完了

AISIによる評価結果

英国AI安全機関(AISI)がOpenAIのGPT-5.5に対するサイバーセキュリティ評価結果を公開した。人間専門家が最大12時間を要する複雑な多段階企業ネットワーク侵入シミュレーションを、GPT-5.5はわずか11分、1.73ドルで完了した。

同じ壁を越えた2番目のモデル

AISIは4月、AnthropicのClaude Mythos Previewがこの基準を初めてクリアしたモデルだと発表していた。GPT-5.5の結果が明確な答えを示した。異なる2社の2つのモデルが同じ基準をクリアしたことは、フロンティアレベルのAIサイバー能力が業界全体で成熟しつつあることを強く示唆する。

評価タスクの構造

AISIのサイバー評価スイートは95タスクを4段階の難易度で構成する。基本タスクは2026年2月以前から主要モデルが完全に解決済み。高度なタスクはストリップされたバイナリのリバースエンジニアリング、ヒープオーバーフローやUAFの信頼性ある悪用、現実的なエンタープライズ環境への多段階攻撃チェーン実行を要求する。防御者は今すぐAIベースの検知・対応能力の導入を優先すべき段階に入った。