OpenAIとParadigm、スマートコントラクト向けEVMbenchを公開
Original: Introducing EVMbench View original →
EVMbenchの狙い
OpenAIとParadigmは、Ethereum Virtual Machine環境のsmart contractセキュリティを対象にした評価基盤EVMbenchを公開した。OpenAIは、オープンソースcrypto資産で100B+規模がsmart contractに依存している点を踏まえ、AI agentの能力向上を防御側だけでなく攻撃側のリスクとしても定量把握する必要があると説明している。
ベンチマークには40件の監査から抽出した120件の高重大度脆弱性が含まれ、多くは公開監査コンペ由来だ。さらにTempo blockchainの監査過程に基づくシナリオを加え、決済系ユースケースでの実務的な検証も取り込んでいる。
評価モード
- Detect: リポジトリ監査で既知脆弱性をどれだけ再現的に見つけられるかを評価
- Patch: 本来機能を維持しながら悪用可能性を除去できるかを自動テストで検証
- Exploit: サンドボックス環境で資金流出攻撃をエンドツーエンドで実行できるかを採点
評価再現性のためにRust製ハーネスを用い、トランザクション再生をdeterministicに処理する。Exploitはライブチェーンではなく隔離されたローカルAnvil上で実行され、安全でないRPCは制限される。
結果と示唆
OpenAIによれば、GPT-5.3-Codexはexploitモードで72.2%を記録し、約6か月前のGPT-5(31.9%)を大きく上回った。一方でdetectとpatchは依然として完全性が低く、網羅的監査や安全な修正の難しさが残る。
この非対称性は重要だ。攻撃実行能力の向上が防御実装能力より速い場合、運用側にはより強い監査自動化、迅速な検証サイクル、評価指標の標準化が求められる。
制約と今後
OpenAIは限界も明示している。データセットがCode4rena系に偏る点、detectで追加発見の真偽判定が難しい点、exploit評価が単一チェーンかつ逐次再生でタイミング依存の攻撃を十分に扱えない点などだ。
同社は公開と同時に、防御側活用を進めるための取り組みとしてCybersecurity Grant Programへの追加10Mドル相当APIクレジット提供を発表した。メッセージは、能力向上そのものよりも、測定・緩和・運用を同時に進化させる必要性にある。
Related Articles
HNで注目されたのは「Claudeがバグを見つける」話だけでなく、各チームが自分の対象に合わせて作り替えるharnessの形だった。
OpenAIは6月4日、ChatGPTのLockdown Modeを全ログインユーザーとワークスペースに提供し、API生成リクエストでは入力・出力のmoderationスコアを同じ応答で受け取れるようにした。prompt injection対策が製品機能として見える位置に出てきた。
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。