GPT-5.5、人間専門家12時間の企業ネットワーク攻撃シミュレーションを11分で完了
Original: GPT5.5 slightly outperformed Mythos on a multi-step cyber-attack simulation. One challenge that took a human expert 12 hrs took GPT-5.5 only 11 min at a $1.73 cost View original →
AISIによる評価結果
英国AI安全機関(AISI)がOpenAIのGPT-5.5に対するサイバーセキュリティ評価結果を公開した。人間専門家が最大12時間を要する複雑な多段階企業ネットワーク侵入シミュレーションを、GPT-5.5はわずか11分、1.73ドルで完了した。
同じ壁を越えた2番目のモデル
AISIは4月、AnthropicのClaude Mythos Previewがこの基準を初めてクリアしたモデルだと発表していた。GPT-5.5の結果が明確な答えを示した。異なる2社の2つのモデルが同じ基準をクリアしたことは、フロンティアレベルのAIサイバー能力が業界全体で成熟しつつあることを強く示唆する。
評価タスクの構造
AISIのサイバー評価スイートは95タスクを4段階の難易度で構成する。基本タスクは2026年2月以前から主要モデルが完全に解決済み。高度なタスクはストリップされたバイナリのリバースエンジニアリング、ヒープオーバーフローやUAFの信頼性ある悪用、現実的なエンタープライズ環境への多段階攻撃チェーン実行を要求する。防御者は今すぐAIベースの検知・対応能力の導入を優先すべき段階に入った。
Related Articles
OpenAIはGPT-5.4-Cyberの利用範囲を、検証済みのセキュリティ研究者や大規模な防御組織へ広げた。$10 millionのAPI credit、政府評価機関への提供、tier制のアクセス管理を組み合わせた点が本筋だ。
米政府機関が、セキュリティ審査で止まりがちだった生成AI導入を次の段階へ進めやすくなる。OpenAIはChatGPT EnterpriseとAPI PlatformでFedRAMP 20x Moderateを取得し、GPT-5.5と今後のCodex Cloudまで視野に入る環境を整えた。
OpenAIはサイバー競争の問いを「最強モデルは誰か」から「防御ツールを誰が広く届けるか」へずらそうとしている。2026年4月29日の計画は5本柱で整理され、要点は防御アクセスの拡大と高リスク配備の可視性確保にある。
Comments (0)
No comments yet. Be the first to comment!