OpenAI, Safety Bug Bounty 공개... AI abuse·agentic risk 신고 범위 확대

March 25, 2026에 OpenAI는 Safety Bug Bounty program을 공개하고, 자사 제품 전반의 AI abuse와 safety risk를 외부 연구자와 함께 찾겠다고 밝혔다. 이번 프로그램은 기존 Security Bug Bounty를 대체하는 것이 아니라 보완하는 구조다. OpenAI는 전통적인 security vulnerability 정의에는 정확히 들어맞지 않더라도, 실제 misuse나 tangible harm으로 이어질 수 있는 문제를 별도 범주로 접수하겠다고 설명했다.

가장 중요한 범주는 agentic risk다. OpenAI는 Browser, ChatGPT Agent 같은 agentic product를 예시로 들며, third-party prompt injection이나 data exfiltration처럼 외부 텍스트가 agent를 가로채 harmful action을 유도하거나 민감한 정보를 유출시키는 사례를 명시적으로 포함했다. 일부 신고는 harmful behavior가 최소 50% 이상 재현돼야 하며, OpenAI 웹사이트에서의 대규모 disallowed action이나 기타 materially harmful action도 검토 대상이 된다.

또 다른 축은 OpenAI proprietary information과 account/platform integrity다. reasoning 관련 proprietary information이 generation으로 노출되는 경우, anti-automation control 우회, account trust signal 조작, restriction·suspension·ban 회피 같은 문제도 범위에 포함된다. 반면 일반적인 jailbreak는 원칙적으로 out of scope다. OpenAI는 rude language 생성이나 검색으로 쉽게 찾을 수 있는 정보 노출처럼 demonstrable safety impact가 없는 content-policy bypass는 보상 대상이 아니라고 못 박았다.

이 구분은 중요한 신호다. AI product가 tool use, browser access, multi-step action으로 확장되면서 위험의 성격도 일반 software bug와 달라지고 있다. 안전 문제와 보안 문제의 경계가 흐려지는 환경에서 OpenAI는 Bugcrowd를 통한 공식 접수 채널을 만들고, Safety 팀과 Security 팀이 이슈를 분류해 처리하는 운영 체계를 제시했다.

개발자와 enterprise 입장에서는 bug bounty의 초점이 이제 model output 자체보다 agent behavior와 system interaction까지 넓어지고 있다는 점이 핵심이다. 앞으로 agent stack, MCP integration, tool-calling workflow를 운영하는 기업들도 단순 jailbreak 대응을 넘어 prompt injection, action control, sensitive context leakage를 별도 threat model로 다뤄야 한다는 기준을 다시 확인시켜 준 발표다.

OpenAI, Safety Bug Bounty 공개... AI abuse·agentic risk 신고 범위 확대

Related Articles

OpenAI, AI abuse와 agentic risk 겨냥한 공개 Safety Bug Bounty 시작

Rosalind Biodefense, GPT-Rosalind 접근을 정부·동맹 보건 임무로 확대

OpenAI Daybreak, 취약점 발견보다 패치 자동화에 초점

Related Articles

OpenAI, AI abuse와 agentic risk 겨냥한 공개 Safety Bug Bounty 시작
AI Apr 12, 2026 1 min read

Rosalind Biodefense, GPT-Rosalind 접근을 정부·동맹 보건 임무로 확대
AI X/Twitter May 31, 2026 1 min read

OpenAI Daybreak, 취약점 발견보다 패치 자동화에 초점
GPT-5.5-Cyber는 CyberGym 85.6%를 기록했고 Codex Security는 30,000개 이상 코드베이스를 훑었다. 보안 AI의 무게중심이 “찾기”에서 “검증하고 고치기”로 이동한다.