r/singularity가 끌어올린 AISI 평가: Claude Mythos는 toy demo가 아니라 multi-step cyber workflow를 잇기 시작했다
Original: Our evaluation of Claude Mythos Preview's cyber capabilities View original →
r/singularity thread 하나가 AI safety 담론을 다시 benchmark 현실로 끌어내렸다. Reddit post는 AI Security Institute의 Mythos Preview 평가를 공유했는데, 내용은 추상적 경고보다 훨씬 구체적이다. AISI는 controlled environment에서 network access까지 허용했을 때, Claude Mythos Preview가 vulnerable network를 상대로 multi-stage attack을 실행하고 exploit chain을 이어갈 수 있었다고 설명한다.
수치도 분명하다. AISI에 따르면 expert-level CTF에서는 Mythos Preview가 73% 성공률을 기록했다. 더 중요한 것은 cyber range 결과다. 연구팀이 구축한 “The Last Ones”는 reconnaissance부터 full network takeover까지 32 steps로 이어지는 corporate attack simulation이며, 사람에게는 약 20시간이 걸릴 것으로 추정된다. Mythos Preview는 이 시나리오를 끝까지 푼 첫 model이 되었고, 10 attempts 중 3번 성공했으며 전체 시도 평균으로는 22 of 32 steps를 수행했다. 비교 대상으로 제시된 Claude Opus 4.6은 평균 16 steps였다.
그렇다고 보고서가 곧바로 “real-world enterprise가 이미 뚫린다”는 뜻은 아니다. AISI는 한계도 명확히 적었다. Mythos는 operational technology 중심 range인 Cooling Tower는 끝내지 못했고, 평가 환경에는 실제 현장에서 흔한 active defenders, detection tooling, alert penalties가 빠져 있었다. 다시 말해 capability는 분명 올라갔지만, hardened environment에서의 실제 공격 성공을 단정할 수준은 아니라는 뜻이다.
그래도 Reddit 반응이 예민했던 이유는 이해할 만하다. 상위 댓글은 open-weight model이 frontier model을 약 12개월 안팎으로 따라온다고 보며 “patch everything”의 clock이 이미 움직이고 있다고 해석했다. 이 포스트가 중요한 이유는 AI cyber risk 논의가 jailbreak headline에서 multi-step operational benchmark로 넘어가고 있음을 보여주기 때문이다. 조직 입장에서는 결론도 복잡하지 않다. AISI가 말하듯이, 당장 필요한 것은 mythical defense가 아니라 updates, access controls, secure configuration, logging 같은 boring basics를 더 빨리 그리고 더 넓게 적용하는 일이다.
Related Articles
Anthropic의 최첨단 AI Mythos가 17년간 전문가들이 놓쳤던 FreeBSD 원격 코드 실행 취약점을 자율적으로 발견하고 Firefox에서 약 300개의 버그를 추가 식별했다. 이 사건은 트럼프 행정부가 AI 사전 심사 제도 검토에 착수하는 직접적 계기가 됐다.
Anthropic이 AI 윤리의 기초 문서인 '클로드 헌법'을 저자 아만다 애스켈과 조 칼스미스의 낭독으로 오디오북화했다. AI 가치 정렬의 배경과 향후 변화 가능성을 묻고 답하는 Q&A도 포함된다.
Anthropic과 KPMG가 5월 19일 글로벌 전략 동맹을 체결했다. KPMG 전 직원 27만 6천 명이 Digital Gateway를 통해 Claude에 접근하며, 조세·사모펀드·사이버보안 분야 에이전트 워크플로우에 우선 적용된다.
Comments (0)
No comments yet. Be the first to comment!