OpenAI, GPT-5.5 바이오 탈옥에 현상금... 첫 범용 우회엔 $25,000
Original: GPT‑5.5 Bio Bug Bounty View original →
안전성 공지는 쉽게 추상으로 흐른다. OpenAI의 GPT-5.5 Bio Bug Bounty는 반대로 아주 구체적이다. 바이오 안전장치를 무너뜨리는 느낌이나 우려를 말하는 것이 아니라, 실제로 작동하는 범용 탈옥 프롬프트를 찾아내면 돈을 주겠다는 구조다.
조건은 까다롭다. 대상 모델은 Codex Desktop의 GPT-5.5뿐이다. 우승 조건도 명확하다. moderation을 자극하지 않는 깨끗한 대화 한 번으로 바이오 안전 질문 5개를 모두 통과시키는 하나의 universal jailbreak를 찾아야 한다. OpenAI는 여기에 첫 성공자에게 $25,000을 건다. 일부만 깨는 경우에는 더 작은 보상이 붙을 수 있다.
운영 방식도 닫힌 문 안에서 정리됐다. 신청은 2026년 4월 23일 열렸고 6월 22일 닫힌다. 정식 테스트는 4월 28일부터 7월 27일까지다. OpenAI는 신뢰할 수 있는 bio red-teamer를 별도로 초대하고, 새 신청자도 심사해 전용 플랫폼에 올리겠다고 적었다. 프롬프트, 출력, 발견 내용, 커뮤니케이션은 전부 NDA 적용 대상이다.
이 프로그램의 의미는 현상금 액수보다 기준 설정에 있다. 단발성 실수 하나가 아니라, 다섯 개 질문 전체를 뚫는 재사용 가능한 프롬프트를 요구한다. 모델 안전성 평가를 외부 공격자 관점의 시험으로 바꾸면서도 범위, 접근, 공개 절차는 꽉 조였다. OpenAI가 어떤 종류의 실패를 가장 위험한 실패로 보는지 여기서 바로 확인된다.
페이지는 기존 Safety Bug Bounty와 Security Bug Bounty도 함께 안내한다. 이번 프로그램이 GPT-5.5 출시 이벤트용 장식이 아니라, 외부 공격 테스트를 안전 절차에 편입하는 흐름의 일부라는 뜻이다. 다음 관심사는 단순하다. 누가 $25,000을 가져가느냐, 어떤 우회 시도가 통하느냐, 그리고 그 결과가 얼마나 빨리 방어 업데이트로 이어지느냐다.
Related Articles
OpenAI가 GPT-5.4-Cyber 접근을 일부 보안 연구자와 대형 방어 조직으로 넓히며, $10 million API credit과 평가기관 접근까지 묶었다. 핵심은 더 강한 cyber model을 막아두는 대신 신원 검증, 책임 추적, 단계별 권한으로 배포하겠다는 운영 방식이다.
HN의 관심은 demo reel이 아니라, 빽빽한 prompt를 얼마나 정확히 지키느냐에 쏠렸다. ChatGPT Images 2.0은 더 넓은 style과 multilingual text를 내세웠지만, 개발자들은 곧바로 hard prompt, text rendering, 가격, 학습 데이터 논쟁으로 끌고 갔다.
핵심은 민감한 텍스트를 서버로 보내기 전에 기기 안에서 지울 수 있게 됐다는 점이다. OpenAI의 1.5B 파라미터 Privacy Filter는 128,000토큰을 지원하고, 수정한 PII-Masking-300k 평가에서 F1 97.43%를 기록했다.
Comments (0)
No comments yet. Be the first to comment!