OpenAI와 Paradigm, 스마트컨트랙트 보안 벤치마크 EVMbench 공개

발표 개요

OpenAI는 Paradigm과 함께 스마트컨트랙트 보안 평가용 벤치마크 EVMbench를 공개했다. 배경은 분명하다. 오픈소스 crypto 생태계에서 스마트컨트랙트가 100B+ 규모 자산을 보호하고 있고, AI agent의 코드 이해·생성·실행 능력이 빠르게 향상되면서 공격과 방어 모두에서 실제 영향이 커지고 있기 때문이다.

EVMbench는 고위험 취약점 중심으로 구성됐으며, 40개 감사(audit)에서 선별한 120개 취약점 시나리오를 포함한다. 대부분은 공개 감사 경쟁에서 가져왔고, 추가로 Tempo blockchain 보안 감사에서 파생된 사례도 반영해 결제형 smart contract 맥락을 확장했다.

세 가지 평가 모드

Detect: 저장소를 감사해 취약점을 찾아내는 능력(재현 가능한 정답 기준 회수율)
Patch: 취약점을 제거하면서 기존 기능을 유지하는 수정 능력(자동 테스트와 exploit 검증)
Exploit: 샌드박스 체인에서 실제 자금 탈취 흐름을 끝까지 실행하는 능력

평가 재현성을 위해 Rust 기반 harness가 사용됐고, 트랜잭션 재생은 deterministic하게 처리된다. Exploit 평가는 라이브 네트워크가 아니라 격리된 로컬 Anvil 환경에서 수행되며, 안전하지 않은 RPC 메서드는 제한된다.

주요 결과와 리스크 시사점

OpenAI 발표에 따르면 GPT-5.3-Codex는 exploit 모드에서 72.2%를 기록했고, 약 6개월 전 공개된 GPT-5는 31.9%였다. 반면 detect와 patch는 아직 완전 커버리지에 못 미친다. 즉, 공격 시나리오 실행은 빠르게 향상되는 반면, 포괄적 감사와 기능 보존형 수정은 여전히 어려운 영역으로 남아 있다.

OpenAI는 한계도 함께 공개했다. 데이터셋이 Code4rena 중심이고, detect 모드에서 모델이 제시한 추가 이슈의 진위 판별이 어렵다. exploit 모드는 순차 재생 기반이어서 타이밍 의존 공격이나 멀티체인 조건을 충분히 반영하지 못한다.

그럼에도 EVMbench는 AI cyber capability를 정량적으로 추적하는 기준선으로 의미가 크다. OpenAI는 방어 생태계 강화를 위해 Cybersecurity Grant Program을 통해 10M달러 API 크레딧을 추가 지원하겠다고 밝혔다. 핵심 메시지는 공격·방어 양면의 성능 상승을 전제로, 측정과 완화 체계를 동시에 고도화해야 한다는 점이다.

OpenAI와 Paradigm, 스마트컨트랙트 보안 벤치마크 EVMbench 공개

발표 개요

세 가지 평가 모드

주요 결과와 리스크 시사점

Related Articles

ChatGPT Lockdown Mode 전면 적용… prompt injection 방어가 기본 논점으로

Anthropic vuln harness, 제품보다 실험대에 가까운 이유

Claude Fable 5, GDPval-AA 1932점으로 에이전트 업무 벤치마크 선두