OpenAIとParadigm、スマートコントラクト向けEVMbenchを公開
Original: Introducing EVMbench View original →
EVMbenchの狙い
OpenAIとParadigmは、Ethereum Virtual Machine環境のsmart contractセキュリティを対象にした評価基盤EVMbenchを公開した。OpenAIは、オープンソースcrypto資産で100B+規模がsmart contractに依存している点を踏まえ、AI agentの能力向上を防御側だけでなく攻撃側のリスクとしても定量把握する必要があると説明している。
ベンチマークには40件の監査から抽出した120件の高重大度脆弱性が含まれ、多くは公開監査コンペ由来だ。さらにTempo blockchainの監査過程に基づくシナリオを加え、決済系ユースケースでの実務的な検証も取り込んでいる。
評価モード
- Detect: リポジトリ監査で既知脆弱性をどれだけ再現的に見つけられるかを評価
- Patch: 本来機能を維持しながら悪用可能性を除去できるかを自動テストで検証
- Exploit: サンドボックス環境で資金流出攻撃をエンドツーエンドで実行できるかを採点
評価再現性のためにRust製ハーネスを用い、トランザクション再生をdeterministicに処理する。Exploitはライブチェーンではなく隔離されたローカルAnvil上で実行され、安全でないRPCは制限される。
結果と示唆
OpenAIによれば、GPT-5.3-Codexはexploitモードで72.2%を記録し、約6か月前のGPT-5(31.9%)を大きく上回った。一方でdetectとpatchは依然として完全性が低く、網羅的監査や安全な修正の難しさが残る。
この非対称性は重要だ。攻撃実行能力の向上が防御実装能力より速い場合、運用側にはより強い監査自動化、迅速な検証サイクル、評価指標の標準化が求められる。
制約と今後
OpenAIは限界も明示している。データセットがCode4rena系に偏る点、detectで追加発見の真偽判定が難しい点、exploit評価が単一チェーンかつ逐次再生でタイミング依存の攻撃を十分に扱えない点などだ。
同社は公開と同時に、防御側活用を進めるための取り組みとしてCybersecurity Grant Programへの追加10Mドル相当APIクレジット提供を発表した。メッセージは、能力向上そのものよりも、測定・緩和・運用を同時に進化させる必要性にある。
Related Articles
OpenAI Developersは2026年3月6日、Codex Securityをresearch previewとして公開した。GitHubリポジトリに接続し、threat model生成、脆弱性の検証、修正案提示までを人間レビュー前提で行う。
GitHubは2026年2月26日、Claude by AnthropicとOpenAI CodexをCopilot BusinessおよびCopilot Pro向けのcoding agentとして提供開始すると発表した。github.com、GitHub Mobile、VS Codeで同じcontextを共有でき、追加subscriptionなしでpublic preview中はsessionごとにone premium requestを消費する。
Anthropicは2026年3月6日、Mozillaとの協力によりClaude Opus 4.6が2週間でFirefoxの脆弱性22件を発見し、そのうち14件が高深刻度だったと発表した。添付の解説は、フロンティアモデルが実運用ソフトの脆弱性発見でも実用段階に入りつつあることを示している。
Comments (0)
No comments yet. Be the first to comment!