GPT-5.5-Cyber 85.6%, 보안 AI 경쟁의 초점이 취약점 발견에서 패치 자동화로 이동

취약점 발견보다 패치가 병목

AI 보안 경쟁의 초점이 취약점 탐지에서 검증, 증거 수집, 패치 작성으로 이동하고 있다. OpenAI의 6월 22일 트윗은 Daybreak를 Codex Security, GPT-5.5-Cyber, 파트너 프로그램, 오픈소스 지원 프로젝트로 확장한다는 내용이었다.

“find, validate, and fix vulnerabilities right inside Codex”

핵심 숫자는 모델 성능과 운영 규모다. OpenAI의 연결 문서에 따르면 GPT-5.5-Cyber는 CyberGym 단일 모델 평가에서 85.6%를 기록해 GPT-5.5의 81.8%를 앞섰다. ExploitGym에서는 39.5% 대 25.95%, SEC-bench Pro에서는 69.8% 대 63.1%로 비교됐다. Codex Security는 3만 개 이상 코드베이스와 3천만 개 이상 커밋을 스캔했고, 사람이 고쳤다고 표시한 발견 항목은 7만 건 이상, 자동으로 해결 상태가 확인된 항목은 50만 건 이상이라고 적었다.

OpenAI 계정은 주로 제품 출시, 연구, 정책성 메시지를 직접 올리는 공식 채널이다. 이번 글은 단순한 모델 성능표보다 개발 워크플로에 가깝다. Codex 안에서 깊은 스캔을 실행하고, 공격 경로를 추적하고, 위협 모델을 만들며, 코드베이스별 패치를 검토용으로 생성하는 흐름을 제시한다. 보안 파트너에게는 Trusted Access for Cyber를 통해 모델을 제품과 서비스에 넣도록 하는 구조도 함께 붙었다. 한국 독자에게 중요한 대목은 이 흐름이 보안팀만의 도구가 아니라 개발자 워크플로 안으로 들어온다는 점이다. 취약점 관리 시스템, SARIF 파일, CodeQL 쿼리 같은 기존 도구로 내보내는 경로가 붙으면, 모델 출력은 별도 실험이 아니라 감사 가능한 변경 제안으로 남는다. 다만 모델이 더 많은 후보를 만들수록 리뷰 부담과 책임 소재도 커진다. 따라서 성능 수치와 함께 변경 추적, 접근 권한, 검증 로그가 얼마나 촘촘한지도 같은 비중으로 봐야 한다.

오픈소스 쪽에서는 Patch the Planet이 별도 축이다. OpenAI는 Trail of Bits, HackerOne, Calif, 연구자, 유지관리자와 협력하고, cURL, Go, Python, Sigstore, pyca/cryptography 등 30개 이상 프로젝트가 초기 참여 의사를 냈다고 설명했다. 다음 관전점은 벤치마크 수치보다 실제 저장소에서 병합된 패치의 품질, 오탐 축소, 그리고 고위험 사이버 기능 접근 통제가 얼마나 투명하게 운영되는지다. Source tweet

GPT-5.5-Cyber 85.6%, 보안 AI 경쟁의 초점이 취약점 발견에서 패치 자동화로 이동

취약점 발견보다 패치가 병목

Related Articles

Codex가 Windows 화면을 직접 조작하고 모바일에서 개발 작업을 이어가는 변화의 의미

OpenAI 모델·Codex, AWS Bedrock 정식 제공으로 기업 AI 도입 경로 확대

1.3M 대화로 GPT-5 계열 출시 전 위험률을 예측한 OpenAI 실험