LLM Feb 27, 2026 1 min read
OpenAI와 Paradigm이 스마트컨트랙트 취약점 탐지·패치·익스플로잇 능력을 평가하는 EVMbench를 발표했다. GPT-5.3-Codex는 exploit 모드에서 72.2%를 기록해 GPT-5의 31.9% 대비 큰 격차를 보였다.
OpenAI와 Paradigm이 스마트컨트랙트 취약점 탐지·패치·익스플로잇 능력을 평가하는 EVMbench를 발표했다. GPT-5.3-Codex는 exploit 모드에서 72.2%를 기록해 GPT-5의 31.9% 대비 큰 격차를 보였다.
OpenAI가 AI 에이전트가 고위험 스마트 컨트랙트 취약점을 탐지·익스플로잇·패치하는 능력을 측정하는 새로운 벤치마크 EVMbench를 출시했습니다.