Fable 5 jailbreak, 이제 “뚫렸다”가 아니라 심각도 점수 문제

AI jailbreak가 더 이상 캡처 한 장으로 끝나는 논란이 아니게 됐다. Anthropic은 2026년 7월 2일 Fable 5의 사이버 안전장치와 jailbreak 심각도 framework를 공개하며, 우회 기법을 “있다/없다”가 아니라 얼마나 위험한지 분류해야 한다고 제안했다. 정부 심사와 모델 출시가 맞물리는 상황에서 필요한 것은 모호한 공포가 아니라 같은 기준으로 말할 수 있는 점수표라는 메시지다.

배경은 6월 Fable 5 접근 제한 사태다. Anthropic에 따르면 Amazon 연구진 보고서에서 Fable 5의 안전장치를 우회해 소프트웨어 취약점을 식별하고, 한 사례에서는 해당 취약점을 악용하는 시연 코드를 만들 수 있는 방법이 제기됐다. 이후 Anthropic은 여러 모델을 함께 시험했고, 같은 취약점 식별은 Claude Opus 4.8, GPT-5.5, Kimi K2.7 같은 덜 강한 모델도 수행할 수 있었다고 설명했다. 악용 시연 코드 역시 테스트한 모든 모델에서 재현됐다는 것이 회사의 주장이다.

새 조치는 해당 우회 기법을 겨냥한 safety classifier다. Anthropic은 이 classifier가 Amazon 보고서에 나온 특정 기법을 99% 넘게 차단한다고 밝혔다. 차단된 Fable 5 요청은 Opus 4.8로 보내진다. 대신 부작용도 분명하다. 회사는 일반적인 코딩과 디버깅 요청에서도 정상 요청이 더 자주 걸릴 수 있다고 인정했다. 보안 리스크를 줄이는 순간 개발자 경험이 거칠어지는 문제는 그대로 남는다.

이번 framework는 사이버 요청을 prohibited use, high-risk dual use, low-risk dual use, benign use 등으로 나누고, jailbreak가 어느 경계까지 밀고 들어갔는지를 심각도 판단의 기준으로 삼는다. Anthropic은 Fable 5 cyber jailbreak 제보를 받을 HackerOne 프로그램도 열었다.

중요한 지점은 Fable 5 하나가 아니다. Anthropic은 Glasswing 파트너들과 이 기준을 논의 중이라고 설명한다. frontier 모델 출시가 정부와 기업의 사전 검토 대상이 된다면, “jailbreak”라는 한 단어로는 충분하지 않다. 다음 관전점은 다른 모델 회사와 보안 연구자, 규제기관이 이 심각도 언어를 받아들일지다. 이 기준이 자리 잡으면 모델 접근 제한 논쟁도 더 구체적인 증거와 등급을 중심으로 움직일 가능성이 크다. 출처: Anthropic, 2026년 7월 2일.

Fable 5 jailbreak, 이제 “뚫렸다”가 아니라 심각도 점수 문제

Related Articles

Anthropic 832개 악성 계정 분석, AI 공격이 침투 이후 단계로 깊어진다는 신호

Anthropic, Claude가 Firefox 취약점을 테스트용 익스플로잇으로 전환한 사례 공개

Claude Code 사용에서 높아진 자율성, Anthropic이 업무 영향 데이터를 새로 연결

Related Articles

Anthropic 832개 악성 계정 분석, AI 공격이 침투 이후 단계로 깊어진다는 신호
AI X/Twitter Jun 4, 2026 1 min read

Anthropic, Claude가 Firefox 취약점을 테스트용 익스플로잇으로 전환한 사례 공개
AI Mar 7, 2026 1 min read

Claude Code 사용에서 높아진 자율성, Anthropic이 업무 영향 데이터를 새로 연결