OpenAIとParadigm、スマートコントラクト向けEVMbenchを公開

Original: Introducing EVMbench View original →

Read in other languages: 한국어English
LLM Feb 27, 2026 By Insights AI 1 min read Source

EVMbenchの狙い

OpenAIとParadigmは、Ethereum Virtual Machine環境のsmart contractセキュリティを対象にした評価基盤EVMbenchを公開した。OpenAIは、オープンソースcrypto資産で100B+規模がsmart contractに依存している点を踏まえ、AI agentの能力向上を防御側だけでなく攻撃側のリスクとしても定量把握する必要があると説明している。

ベンチマークには40件の監査から抽出した120件の高重大度脆弱性が含まれ、多くは公開監査コンペ由来だ。さらにTempo blockchainの監査過程に基づくシナリオを加え、決済系ユースケースでの実務的な検証も取り込んでいる。

評価モード

  • Detect: リポジトリ監査で既知脆弱性をどれだけ再現的に見つけられるかを評価
  • Patch: 本来機能を維持しながら悪用可能性を除去できるかを自動テストで検証
  • Exploit: サンドボックス環境で資金流出攻撃をエンドツーエンドで実行できるかを採点

評価再現性のためにRust製ハーネスを用い、トランザクション再生をdeterministicに処理する。Exploitはライブチェーンではなく隔離されたローカルAnvil上で実行され、安全でないRPCは制限される。

結果と示唆

OpenAIによれば、GPT-5.3-Codexはexploitモードで72.2%を記録し、約6か月前のGPT-5(31.9%)を大きく上回った。一方でdetectとpatchは依然として完全性が低く、網羅的監査や安全な修正の難しさが残る。

この非対称性は重要だ。攻撃実行能力の向上が防御実装能力より速い場合、運用側にはより強い監査自動化、迅速な検証サイクル、評価指標の標準化が求められる。

制約と今後

OpenAIは限界も明示している。データセットがCode4rena系に偏る点、detectで追加発見の真偽判定が難しい点、exploit評価が単一チェーンかつ逐次再生でタイミング依存の攻撃を十分に扱えない点などだ。

同社は公開と同時に、防御側活用を進めるための取り組みとしてCybersecurity Grant Programへの追加10Mドル相当APIクレジット提供を発表した。メッセージは、能力向上そのものよりも、測定・緩和・運用を同時に進化させる必要性にある。

Share:

Related Articles

LLM 3d ago 1 min read

GitHubは2026年2月26日、Claude by AnthropicとOpenAI CodexをCopilot BusinessおよびCopilot Pro向けのcoding agentとして提供開始すると発表した。github.com、GitHub Mobile、VS Codeで同じcontextを共有でき、追加subscriptionなしでpublic preview中はsessionごとにone premium requestを消費する。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.