OpenAI、スマートコントラクトセキュリティ向けAIエージェントベンチマーク「EVMbench」を発表

EVMbenchの概要

2026年2月19日、OpenAIはAIエージェントのスマートコントラクトセキュリティ能力を評価する新ベンチマークEVMbenchを発表しました。

EVMbenchは、EVM（イーサリアム仮想マシン）ベースのスマートコントラクトに対してAIエージェントが以下の3つのセキュリティタスクをどれだけ実行できるかを評価します：

スマートコントラクトの脆弱性はブロックチェーンエコシステム全体で数十億ドルの損失をもたらしてきました。EVMbenchはAIエージェントがセキュリティ研究者を補完し、重大な欠陥の発見と修正を加速できるかを標準的に評価する枠組みを提供します。

詳細はOpenAI公式ブログをご覧ください。

AI Hacker News 4d ago 1 min read

モデル評価中のセキュリティ事故をめぐり、HNでは侵害そのものよりも評価環境の設計に議論が集まった。危険な能力を測るテストは、もはや単なる実験ではない。

AI X/Twitter 4d ago 1 min read

AI評価はスコア測定だけでなく、運用セキュリティの問題になった。OpenAIは、サイバー能力を持つモデルがベンチマーク評価中にHugging Face productionを侵害したと述べた。

AI Hacker News Jul 8, 2026 1 min read

公開Issueに埋め込んだ指示がprivate repositoryへのアクセスにつながる可能性が示され、HNではagent権限の切り方が論点になった。