Fable 5 jailbreak, 이제 “뚫렸다”가 아니라 심각도 점수 문제
Original: More details on Fable 5’s cyber safeguards and our jailbreak framework View original →
AI jailbreak가 더 이상 캡처 한 장으로 끝나는 논란이 아니게 됐다. Anthropic은 2026년 7월 2일 Fable 5의 사이버 안전장치와 jailbreak 심각도 framework를 공개하며, 우회 기법을 “있다/없다”가 아니라 얼마나 위험한지 분류해야 한다고 제안했다. 정부 심사와 모델 출시가 맞물리는 상황에서 필요한 것은 모호한 공포가 아니라 같은 기준으로 말할 수 있는 점수표라는 메시지다.
배경은 6월 Fable 5 접근 제한 사태다. Anthropic에 따르면 Amazon 연구진 보고서에서 Fable 5의 안전장치를 우회해 소프트웨어 취약점을 식별하고, 한 사례에서는 해당 취약점을 악용하는 시연 코드를 만들 수 있는 방법이 제기됐다. 이후 Anthropic은 여러 모델을 함께 시험했고, 같은 취약점 식별은 Claude Opus 4.8, GPT-5.5, Kimi K2.7 같은 덜 강한 모델도 수행할 수 있었다고 설명했다. 악용 시연 코드 역시 테스트한 모든 모델에서 재현됐다는 것이 회사의 주장이다.
새 조치는 해당 우회 기법을 겨냥한 safety classifier다. Anthropic은 이 classifier가 Amazon 보고서에 나온 특정 기법을 99% 넘게 차단한다고 밝혔다. 차단된 Fable 5 요청은 Opus 4.8로 보내진다. 대신 부작용도 분명하다. 회사는 일반적인 코딩과 디버깅 요청에서도 정상 요청이 더 자주 걸릴 수 있다고 인정했다. 보안 리스크를 줄이는 순간 개발자 경험이 거칠어지는 문제는 그대로 남는다.
이번 framework는 사이버 요청을 prohibited use, high-risk dual use, low-risk dual use, benign use 등으로 나누고, jailbreak가 어느 경계까지 밀고 들어갔는지를 심각도 판단의 기준으로 삼는다. Anthropic은 Fable 5 cyber jailbreak 제보를 받을 HackerOne 프로그램도 열었다.
중요한 지점은 Fable 5 하나가 아니다. Anthropic은 Glasswing 파트너들과 이 기준을 논의 중이라고 설명한다. frontier 모델 출시가 정부와 기업의 사전 검토 대상이 된다면, “jailbreak”라는 한 단어로는 충분하지 않다. 다음 관전점은 다른 모델 회사와 보안 연구자, 규제기관이 이 심각도 언어를 받아들일지다. 이 기준이 자리 잡으면 모델 접근 제한 논쟁도 더 구체적인 증거와 등급을 중심으로 움직일 가능성이 크다. 출처: Anthropic, 2026년 7월 2일.
Related Articles
AI 보안의 쟁점이 피싱 작성에서 침투 이후 자동화로 이동하고 있다. Anthropic은 832개 악성 계정을 MITRE ATT&CK에 매핑했고, 중위험 이상 행위자 비율이 33%에서 56%로 뛰었다고 밝혔다.
Anthropic은 2026년 3월 6일 Claude Opus 4.6이 Firefox 취약점 CVE-2026-2796에 대한 테스트용 익스플로잇을 작성한 과정을 공개했다. 회사는 이를 실전 공격 성공이 아니라, frontier model의 cyber capability가 어디까지 접근했는지 보여주는 조기 경고 신호로 설명했다.
Anthropic의 Economic Index는 Claude 사용 기록과 설문을 연결해 AI 위임이 실제 업무 기대와 어떻게 맞물리는지 보여준다. Claude Code는 chat·Cowork보다 1-5 척도에서 평균 0.37점 높은 자율성을 보였고, 표본은 약 9,700명이다.