OpenAI, Codex Security 연구 프리뷰 공개… 컨텍스트 기반 application security 검토 겨냥
Original: Codex Security—our application security agent—is now in research preview. https://openai.com/index/codex-security-now-in-research-preview/ View original →
X에서 OpenAI가 발표한 내용
2026년 3월 6일, OpenAI는 Codex Security가 research preview에 들어간다고 밝혔다. 게시물 자체는 짧았지만, 연결된 공식 글의 포지셔닝은 분명하다. 저장소의 구조와 맥락을 이해하고, 가능성 높은 취약점을 검증한 뒤, 일반적인 AI 보안 도구나 static analysis보다 적은 noise로 patch까지 제안하는 application security agent라는 것이다.
공식 제품 페이지가 추가한 내용
OpenAI는 Codex Security가 이전에 Aardvark라는 이름으로 운영됐고, 지난해 소규모 private beta로 시작했다고 설명한다. 회사는 초기 내부 배포에서 실제 SSRF, 치명적인 cross-tenant authentication vulnerability, 기타 여러 문제를 찾아 보안팀이 몇 시간 안에 패치했다고 주장한다. 베타 기간 동안 품질도 크게 개선됐다고 덧붙였다.
- OpenAI는 한 저장소 사례에서 scan noise가 초기 rollout 대비 84% 줄었다고 말한다.
- Severity를 과대 보고한 finding 비율은 90% 이상 감소했다고 한다.
- False positive rate는 저장소 전반에서 50% 이상 낮아졌다고 설명한다.
- 최근 30일 동안 beta cohort에서 120만 건 이상 commit을 스캔해 792건의 critical, 10,561건의 high-severity finding을 식별했다고 밝혔다.
OpenAI에 따르면 workflow는 세 단계다. 시스템용 editable threat model 생성, 컨텍스트 또는 sandbox 환경에서의 이슈 검증, 그리고 주변 동작과 맞는 patch 제안이다. 또한 이 프리뷰는 ChatGPT Pro, Enterprise, Business, Edu 사용자를 대상으로 Codex web에서 롤아웃되며, 첫 한 달은 무료 사용을 제공한다고 적고 있다.
왜 중요한가
핵심은 AI security review를 generic SAST형 noise에서 벗어나, 컨텍스트를 읽는 application security triage로 옮기려는 시도라는 점이다. agentic development 도구가 코드 생산 속도를 높일수록, security 팀은 finding이 정확하고 바로 조치 가능하지 않으면 새로운 병목이 되기 쉽다. OpenAI는 Codex Security를 그 비용 구조를 바꾸는 도구로 제시하고 있다.
만약 validation과 patching 주장이 실제 저장소에서도 유지된다면, 보안 검토는 단순 대기열 처리보다 더 정밀한 조사에 가까워질 수 있다. 물론 다양한 코드베이스와 아키텍처에서 이런 정확도를 계속 유지할 수 있는지는 별도의 검증이 필요하다. 그래도 방향은 분명하다. application security가 사후 스캔이 아니라 agent workflow의 핵심 요소로 이동하고 있다는 점이다.
Related Articles
OpenAI Developers는 2026년 3월 29일 X에서 Codex Security를 소개하며 취약점 탐지, 검증, 수정까지 지원하겠다고 밝혔다. AI 코딩 도구가 애플리케이션 보안 워크플로우로 확장되고 있음을 보여주는 신호다.
OpenAI가 겨냥한 지점은 채팅이 아니라 장기 작업 자동화다. 공개 수치 기준으로 GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4보다 7.6%p 높았고, Codex에서는 더 적은 토큰으로 같은 일을 밀어붙인다고 적었다.
OpenAI가 내세운 핵심은 단순 성능 업데이트가 아니다. Terminal-Bench 2.0 82.7%, SWE-Bench Pro 58.6%와 함께 GPT-5.4급 지연을 유지한다고 밝히며, 길고 지저분한 작업을 맡기는 코딩 에이전트 경쟁의 기준을 다시 올렸다.
Comments (0)
No comments yet. Be the first to comment!