AI jailbreak가 더 이상 캡처 한 장으로 끝나는 논란이 아니게 됐다. Anthropic은 2026년 7월 2일 Fable 5의 사이버 안전장치와 jailbreak 심각도 framework를 공개하며, 우회 기법을 “있다/없다”가 아니라 얼마나 위험한지 분류해야 한다고 제안했다. 정부 심사와 모델 출시가 맞물리는 상황에서 필요한 것은 모호한 공포가 아니라 같은 기준으로 말할 수 있는 점수표라는 메시지다.

배경은 6월 Fable 5 접근 제한 사태다. Anthropic에 따르면 Amazon 연구진 보고서에서 Fable 5의 안전장치를 우회해 소프트웨어 취약점을 식별하고, 한 사례에서는 해당 취약점을 악용하는 시연 코드를 만들 수 있는 방법이 제기됐다. 이후 Anthropic은 여러 모델을 함께 시험했고, 같은 취약점 식별은 Claude Opus 4.8, GPT-5.5, Kimi K2.7 같은 덜 강한 모델도 수행할 수 있었다고 설명했다. 악용 시연 코드 역시 테스트한 모든 모델에서 재현됐다는 것이 회사의 주장이다.

새 조치는 해당 우회 기법을 겨냥한 safety classifier다. Anthropic은 이 classifier가 Amazon 보고서에 나온 특정 기법을 99% 넘게 차단한다고 밝혔다. 차단된 Fable 5 요청은 Opus 4.8로 보내진다. 대신 부작용도 분명하다. 회사는 일반적인 코딩과 디버깅 요청에서도 정상 요청이 더 자주 걸릴 수 있다고 인정했다. 보안 리스크를 줄이는 순간 개발자 경험이 거칠어지는 문제는 그대로 남는다.

이번 framework는 사이버 요청을 prohibited use, high-risk dual use, low-risk dual use, benign use 등으로 나누고, jailbreak가 어느 경계까지 밀고 들어갔는지를 심각도 판단의 기준으로 삼는다. Anthropic은 Fable 5 cyber jailbreak 제보를 받을 HackerOne 프로그램도 열었다.

중요한 지점은 Fable 5 하나가 아니다. Anthropic은 Glasswing 파트너들과 이 기준을 논의 중이라고 설명한다. frontier 모델 출시가 정부와 기업의 사전 검토 대상이 된다면, “jailbreak”라는 한 단어로는 충분하지 않다. 다음 관전점은 다른 모델 회사와 보안 연구자, 규제기관이 이 심각도 언어를 받아들일지다. 이 기준이 자리 잡으면 모델 접근 제한 논쟁도 더 구체적인 증거와 등급을 중심으로 움직일 가능성이 크다. 출처: Anthropic, 2026년 7월 2일.

#fable-5

Fable 5 jailbreak, 이제 “뚫렸다”가 아니라 심각도 점수 문제