AI 3h ago 1 min read
AI jailbreak 논쟁이 “성공/실패” 구도를 넘어 심각도 분류로 이동한다. Anthropic은 7월 2일 Fable 5용 새 classifier가 Amazon 보고서의 우회 기법을 99% 이상 차단한다고 밝히고, HackerOne 제보 창구와 severity framework 초안을 공개했다.
AI jailbreak 논쟁이 “성공/실패” 구도를 넘어 심각도 분류로 이동한다. Anthropic은 7월 2일 Fable 5용 새 classifier가 Amazon 보고서의 우회 기법을 99% 이상 차단한다고 밝히고, HackerOne 제보 창구와 severity framework 초안을 공개했다.