GPT-5.5がAISIの攻撃シミュレーション突破、Redditが食いついたのは20時間より1.73ドル
Original: GPT5.5 slightly outperformed Mythos on a multi-step cyber-attack simulation. One challenge that took a human expert 12 hrs took GPT-5.5 only 11 min at a $1.73 cost View original →
Redditで広がった見出しは分かりやすいが、AISIが2026年4月30日に公開した公式評価はもっと細かい。1つ目の結果は、GPT-5.5がAISIの多段階企業ネットワーク攻撃シミュレーションTLOをend-to-endで完走した2本目のモデルになったことだ。AISIはこのチェーン全体を人間の専門家なら約20時間と見積もっており、GPT-5.5は10回中2回で完走した。もう1つの「10分22秒・1.73ドル」は別の難しい逆アセンブル課題 rust_vm の結果で、こちらを単独で解いた数字だ。
AISIの評価は単なるベンチマークの点数ではない。95個の狭いサイバー課題を4段階に分け、reverse engineering、web exploitation、cryptographyなどをCTF形式で測っている。TLOでは権限のない攻撃ボックスから始まり、偵察、credential theft、lateral movement、CI/CD supply-chain pivot、内部データの持ち出しまで進まなければならない。GPT-5.5の完走は1回あたり100M token budgetで得られ、AISIはなお性能の頭打ちを見ていないとしている。
だからRedditの反応も単純ではなかった。1つは「Mythosだけが特別に危険なのではなく、同等級の能力が複数モデルに広がっている」という読み方。もう1つは費用と再現性への疑いだ。上位コメントはAnthropicの危険性アピールをマーケティングだったのではと皮肉り、別のコメントは11分の実行が1.73ドルで済むという数字に懐疑的だった。性能そのものより、誰がどの条件でどこまで再現できるのかが論点になっている。
NCSCもより広い文脈で同じ方向を示している。2026年3月30日の関連ブログで、攻撃者の一部はすでに強力なAIツールへアクセスしている前提で防御側も備えるべきだと述べた。つまり今回の重みは「AIが今日からハッカーを置き換える」ことではない。高コストで専門性の高い作業の速度と価格が、無視できないペースで下がり始めている点にある。
Source: AISI evaluation · NCSC context · Reddit discussion
Related Articles
OpenAIが前に出したのは単なる性能更新ではない。Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を示しつつ、GPT-5.4級のレイテンシーを保つとして、長い作業を任せるコーディングエージェントの基準を押し上げた。
HNは今回のOpenAI記事を、ベンチマークの整理ではなく有名リーダーボードの事実上の終了宣言として読んだ。誰が何点を取ったかより、壊れたテストと汚染が評価をどこまで空洞化したかに関心が集まった。
重要なのは、発売時の宣伝ではなく外部コミュニティ評価でGPT-5.5の立ち位置が見えたことだ。Arenaによれば、GPT-5.5はSearch Arenaで2位、Expert Arenaで5位、Code Arenaで9位に入り、コード分野ではGPT-5.4から50ポイント伸びた。
Comments (0)
No comments yet. Be the first to comment!