GPT-5.5がAISIの攻撃シミュレーション突破、Redditが食いついたのは20時間より1.73ドル

Redditで広がった見出しは分かりやすいが、AISIが2026年4月30日に公開した公式評価はもっと細かい。1つ目の結果は、GPT-5.5がAISIの多段階企業ネットワーク攻撃シミュレーションTLOをend-to-endで完走した2本目のモデルになったことだ。AISIはこのチェーン全体を人間の専門家なら約20時間と見積もっており、GPT-5.5は10回中2回で完走した。もう1つの「10分22秒・1.73ドル」は別の難しい逆アセンブル課題 rust_vm の結果で、こちらを単独で解いた数字だ。

AISIの評価は単なるベンチマークの点数ではない。95個の狭いサイバー課題を4段階に分け、reverse engineering、web exploitation、cryptographyなどをCTF形式で測っている。TLOでは権限のない攻撃ボックスから始まり、偵察、credential theft、lateral movement、CI/CD supply-chain pivot、内部データの持ち出しまで進まなければならない。GPT-5.5の完走は1回あたり100M token budgetで得られ、AISIはなお性能の頭打ちを見ていないとしている。

だからRedditの反応も単純ではなかった。1つは「Mythosだけが特別に危険なのではなく、同等級の能力が複数モデルに広がっている」という読み方。もう1つは費用と再現性への疑いだ。上位コメントはAnthropicの危険性アピールをマーケティングだったのではと皮肉り、別のコメントは11分の実行が1.73ドルで済むという数字に懐疑的だった。性能そのものより、誰がどの条件でどこまで再現できるのかが論点になっている。

NCSCもより広い文脈で同じ方向を示している。2026年3月30日の関連ブログで、攻撃者の一部はすでに強力なAIツールへアクセスしている前提で防御側も備えるべきだと述べた。つまり今回の重みは「AIが今日からハッカーを置き換える」ことではない。高コストで専門性の高い作業の速度と価格が、無視できないペースで下がり始めている点にある。

Source: AISI evaluation · NCSC context · Reddit discussion

GPT-5.5がAISIの攻撃シミュレーション突破、Redditが食いついたのは20時間より1.73ドル

Related Articles

GPT-5.5、エージェント型コーディングを押し上げつつ遅延は据え置き

SWE-bench Verified失速、HNが見た本質は順位より汚染

Arena採点のGPT-5.5　Search 2位、Code Arenaは50点上昇

Comments (0)

Leave a Comment

Related Articles

GPT-5.5、エージェント型コーディングを押し上げつつ遅延は据え置き
OpenAIが前に出したのは単なる性能更新ではない。Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を示しつつ、GPT-5.4級のレイテンシーを保つとして、長い作業を任せるコーディングエージェントの基準を押し上げた。

SWE-bench Verified失速、HNが見た本質は順位より汚染

Arena採点のGPT-5.5　Search 2位、Code Arenaは50点上昇
重要なのは、発売時の宣伝ではなく外部コミュニティ評価でGPT-5.5の立ち位置が見えたことだ。Arenaによれば、GPT-5.5はSearch Arenaで2位、Expert Arenaで5位、Code Arenaで9位に入り、コード分野ではGPT-5.4から50ポイント伸びた。