OpenAIとParadigm、スマートコントラクト向けEVMbenchを公開

EVMbenchの狙い

OpenAIとParadigmは、Ethereum Virtual Machine環境のsmart contractセキュリティを対象にした評価基盤EVMbenchを公開した。OpenAIは、オープンソースcrypto資産で100B+規模がsmart contractに依存している点を踏まえ、AI agentの能力向上を防御側だけでなく攻撃側のリスクとしても定量把握する必要があると説明している。

ベンチマークには40件の監査から抽出した120件の高重大度脆弱性が含まれ、多くは公開監査コンペ由来だ。さらにTempo blockchainの監査過程に基づくシナリオを加え、決済系ユースケースでの実務的な検証も取り込んでいる。

評価モード

Detect: リポジトリ監査で既知脆弱性をどれだけ再現的に見つけられるかを評価
Patch: 本来機能を維持しながら悪用可能性を除去できるかを自動テストで検証
Exploit: サンドボックス環境で資金流出攻撃をエンドツーエンドで実行できるかを採点

評価再現性のためにRust製ハーネスを用い、トランザクション再生をdeterministicに処理する。Exploitはライブチェーンではなく隔離されたローカルAnvil上で実行され、安全でないRPCは制限される。

結果と示唆

OpenAIによれば、GPT-5.3-Codexはexploitモードで72.2%を記録し、約6か月前のGPT-5(31.9%)を大きく上回った。一方でdetectとpatchは依然として完全性が低く、網羅的監査や安全な修正の難しさが残る。

この非対称性は重要だ。攻撃実行能力の向上が防御実装能力より速い場合、運用側にはより強い監査自動化、迅速な検証サイクル、評価指標の標準化が求められる。

制約と今後

OpenAIは限界も明示している。データセットがCode4rena系に偏る点、detectで追加発見の真偽判定が難しい点、exploit評価が単一チェーンかつ逐次再生でタイミング依存の攻撃を十分に扱えない点などだ。

同社は公開と同時に、防御側活用を進めるための取り組みとしてCybersecurity Grant Programへの追加10Mドル相当APIクレジット提供を発表した。メッセージは、能力向上そのものよりも、測定・緩和・運用を同時に進化させる必要性にある。

OpenAIとParadigm、スマートコントラクト向けEVMbenchを公開

EVMbenchの狙い

評価モード

結果と示唆

制約と今後

Related Articles

GPT-5.6 Sol限定preview、cyber制御と$5入力単価が焦点に

GLM 5.2、SemgrepのセキュリティbenchmarkでClaude Codeを上回る

Snykの300回反復テスト、LLMセキュリティレビューの揺れを可視化

Related Articles

GPT-5.6 Sol限定preview、cyber制御と$5入力単価が焦点に
LLM Jun 27, 2026 1 min read

GLM 5.2、SemgrepのセキュリティbenchmarkでClaude Codeを上回る
LLM Hacker News Jun 30, 2026 1 min read

Snykの300回反復テスト、LLMセキュリティレビューの揺れを可視化
LLM Jun 29, 2026 1 min read