Hacker News가 본 Claude Mythos Preview, cybersecurity capability의 기준을 바꾸다
Original: Assessing Claude Mythos Preview's cybersecurity capabilities View original →
2026년 4월 7일 Anthropic는 Claude Mythos Preview의 cybersecurity capability를 정리한 기술 글을 공개했다. 글의 핵심은 단순히 code generation이 더 좋아졌다는 수준이 아니라, reasoning·coding·autonomy가 결합되면서 실제 exploit 개발 단계까지 도달하는 성능이 나왔다는 점이다. Anthropic는 이 변화를 방어 측면에서 받아들이기 위해 Project Glasswing도 함께 시작했다.
가장 눈에 띄는 대목은 zero-day 관련 평가다. Anthropic는 Mythos Preview가 사용자의 지시 아래 major operating system과 major web browser 전반에서 zero-day vulnerability를 식별하고 exploit까지 만드는 사례를 확인했다고 설명했다. 공개 글은 99% 이상이 아직 patch되지 않았기 때문에 세부 사항을 숨기고 있지만, 이 자체가 평가가 toy benchmark가 아니라 실제 software target 위에서 진행됐다는 신호로 읽힌다.
공개된 수치도 강하다. Firefox JavaScript engine의 과거 취약점 집합을 활용한 benchmark에서 Opus 4.6은 수백 번 시도 중 두 번만 exploit을 만들었지만, Mythos Preview는 working exploit 181건과 register control 29건을 달성했다고 Anthropic는 밝혔다. OSS-Fuzz 기반 내부 평가에서도 약 1,000개 open-source repository, 약 7,000개 entry point를 대상으로 tier 1·2 crash 595건과 tier 5 control-flow hijack 10건을 기록했다고 한다.
이 글이 Hacker News에서 크게 반응한 이유는 보안 업계의 cost structure를 바꾸는 신호로 보이기 때문이다. model이 patching, triage, exploit explanation에 도움을 주는 만큼, 공격 측의 automation 비용도 함께 내려간다. 즉 frontier LLM의 일반 능력 향상이 security 영역에서 바로 operational consequence로 이어지기 시작했다는 뜻이다.
실무적으로는 두 가지 함의가 있다. 첫째, open-source maintainer와 vendor는 vulnerability response 속도를 더 끌어올려야 한다. 둘째, defensive workflow도 사람 중심 수작업에서 model-assisted review, fuzzing triage, patch prioritization 쪽으로 빠르게 이동할 가능성이 크다. Anthropic의 수치를 모두 그대로 받아들일지와 별개로, Hacker News가 읽은 메시지는 분명하다. 이제 “더 좋은 code model”이라는 표현만으로는 security risk를 설명하기 어려운 단계에 들어섰다.
Related Articles
Anthropic의 새 interpretability 연구는 Claude Sonnet 4.5 내부의 감정 관련 표현이 특히 스트레스 상황에서 행동을 바꾸는 인과적 역할을 한다고 주장한다.
Hacker News에서 주목받은 Alex Kim의 분석은 Claude Code 유출 소스맵에서 fake tools, frustration regex, undercover mode 같은 내부 설계를 드러냈다. 논점은 단순 유출이 아니라 개발자용 AI 도구에 숨겨진 anti-distillation과 telemetry의 범위다.
Anthropic가 2026년 2월 17일 Claude Sonnet 4.6을 공개했다. 1M token context beta, 동일한 가격대, 그리고 coding·computer use·long-context reasoning 전반의 성능 향상이 핵심이다.
Comments (0)
No comments yet. Be the first to comment!