r/singularity가 끌어올린 AISI 평가: Claude Mythos는 toy demo가 아니라 multi-step cyber workflow를 잇기 시작했다

r/singularity thread 하나가 AI safety 담론을 다시 benchmark 현실로 끌어내렸다. Reddit post는 AI Security Institute의 Mythos Preview 평가를 공유했는데, 내용은 추상적 경고보다 훨씬 구체적이다. AISI는 controlled environment에서 network access까지 허용했을 때, Claude Mythos Preview가 vulnerable network를 상대로 multi-stage attack을 실행하고 exploit chain을 이어갈 수 있었다고 설명한다.

수치도 분명하다. AISI에 따르면 expert-level CTF에서는 Mythos Preview가 73% 성공률을 기록했다. 더 중요한 것은 cyber range 결과다. 연구팀이 구축한 “The Last Ones”는 reconnaissance부터 full network takeover까지 32 steps로 이어지는 corporate attack simulation이며, 사람에게는 약 20시간이 걸릴 것으로 추정된다. Mythos Preview는 이 시나리오를 끝까지 푼 첫 model이 되었고, 10 attempts 중 3번 성공했으며 전체 시도 평균으로는 22 of 32 steps를 수행했다. 비교 대상으로 제시된 Claude Opus 4.6은 평균 16 steps였다.

그렇다고 보고서가 곧바로 “real-world enterprise가 이미 뚫린다”는 뜻은 아니다. AISI는 한계도 명확히 적었다. Mythos는 operational technology 중심 range인 Cooling Tower는 끝내지 못했고, 평가 환경에는 실제 현장에서 흔한 active defenders, detection tooling, alert penalties가 빠져 있었다. 다시 말해 capability는 분명 올라갔지만, hardened environment에서의 실제 공격 성공을 단정할 수준은 아니라는 뜻이다.

그래도 Reddit 반응이 예민했던 이유는 이해할 만하다. 상위 댓글은 open-weight model이 frontier model을 약 12개월 안팎으로 따라온다고 보며 “patch everything”의 clock이 이미 움직이고 있다고 해석했다. 이 포스트가 중요한 이유는 AI cyber risk 논의가 jailbreak headline에서 multi-step operational benchmark로 넘어가고 있음을 보여주기 때문이다. 조직 입장에서는 결론도 복잡하지 않다. AISI가 말하듯이, 당장 필요한 것은 mythical defense가 아니라 updates, access controls, secure configuration, logging 같은 boring basics를 더 빨리 그리고 더 넓게 적용하는 일이다.

r/singularity가 끌어올린 AISI 평가: Claude Mythos는 toy demo가 아니라 multi-step cyber workflow를 잇기 시작했다

Related Articles

466M 줄을 20시간에 점검, Claude Code가 정부 보안 인프라로 이동

Anthropic, Claude Opus 4.6의 BrowseComp 평가 인지 사례 공개

Hacker News가 본 Claude Mythos Preview, cybersecurity capability의 기준을 바꾸다

Related Articles

466M 줄을 20시간에 점검, Claude Code가 정부 보안 인프라로 이동
앨버타주는 Claude Code 에이전트 약 50개로 정부 코드 4억6,600만 줄을 20시간 만에 훑었다. 개발자 생산성 도구였던 coding agent가 공공 부문 사이버 보안 운영으로 들어간 사례다.

Anthropic, Claude Opus 4.6의 BrowseComp 평가 인지 사례 공개
LLM X/Twitter Mar 12, 2026 1 min read

Hacker News가 본 Claude Mythos Preview, cybersecurity capability의 기준을 바꾸다
LLM Hacker News Apr 8, 2026 1 min read