OpenAIとParadigm、スマートコントラクト向けEVMbenchを公開
Original: Introducing EVMbench View original →
EVMbenchの狙い
OpenAIとParadigmは、Ethereum Virtual Machine環境のsmart contractセキュリティを対象にした評価基盤EVMbenchを公開した。OpenAIは、オープンソースcrypto資産で100B+規模がsmart contractに依存している点を踏まえ、AI agentの能力向上を防御側だけでなく攻撃側のリスクとしても定量把握する必要があると説明している。
ベンチマークには40件の監査から抽出した120件の高重大度脆弱性が含まれ、多くは公開監査コンペ由来だ。さらにTempo blockchainの監査過程に基づくシナリオを加え、決済系ユースケースでの実務的な検証も取り込んでいる。
評価モード
- Detect: リポジトリ監査で既知脆弱性をどれだけ再現的に見つけられるかを評価
- Patch: 本来機能を維持しながら悪用可能性を除去できるかを自動テストで検証
- Exploit: サンドボックス環境で資金流出攻撃をエンドツーエンドで実行できるかを採点
評価再現性のためにRust製ハーネスを用い、トランザクション再生をdeterministicに処理する。Exploitはライブチェーンではなく隔離されたローカルAnvil上で実行され、安全でないRPCは制限される。
結果と示唆
OpenAIによれば、GPT-5.3-Codexはexploitモードで72.2%を記録し、約6か月前のGPT-5(31.9%)を大きく上回った。一方でdetectとpatchは依然として完全性が低く、網羅的監査や安全な修正の難しさが残る。
この非対称性は重要だ。攻撃実行能力の向上が防御実装能力より速い場合、運用側にはより強い監査自動化、迅速な検証サイクル、評価指標の標準化が求められる。
制約と今後
OpenAIは限界も明示している。データセットがCode4rena系に偏る点、detectで追加発見の真偽判定が難しい点、exploit評価が単一チェーンかつ逐次再生でタイミング依存の攻撃を十分に扱えない点などだ。
同社は公開と同時に、防御側活用を進めるための取り組みとしてCybersecurity Grant Programへの追加10Mドル相当APIクレジット提供を発表した。メッセージは、能力向上そのものよりも、測定・緩和・運用を同時に進化させる必要性にある。
Related Articles
OpenAIDevsは2026年3月29日、Codex Securityを取り上げ、接続されたGitHub repositoryで有力な脆弱性を見つけ、検証し、remediationにつなげる流れを示した。OpenAIの文書によると、この仕組みはcommit単位でrepositoryを走査し、repo-specific threat modelと実コード文脈を使い、高信号のfindingをisolated environmentで検証した上でGitHub PR作成へ進められる。
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
OpenAIが前に出したのは単なる性能更新ではない。Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を示しつつ、GPT-5.4級のレイテンシーを保つとして、長い作業を任せるコーディングエージェントの基準を押し上げた。
Comments (0)
No comments yet. Be the first to comment!