Anthropic 보안 특화 AI, 취약점 체인 익스플로잇 자동 생성 — Cloudflare 검증
Original: Project Glasswing: what Mythos showed us View original →
Project Glasswing이란
Project Glasswing은 Anthropic이 보안 특화 LLM에 선별된 조직의 접근을 허용하는 통제된 연구 프로그램이다. Cloudflare는 이 프로그램에 참여해 자사 인프라를 대상으로 Mythos Preview 모델을 실전 평가했다. 그 결과를 블로그로 공개했다.
Mythos의 핵심 역량
익스플로잇 체인 구성: Mythos는 낮은 심각도 버그 여러 개를 연결해 단일의 더 심각한 익스플로잇을 만들 수 있다. 이는 자동화된 스캐너가 아닌 시니어 보안 연구자 수준의 추론이다.
증명 생성: 가설에 그치지 않고 코드를 작성·컴파일·실행해 취약점을 검증한다. 초기 가설이 틀렸을 때 자체적으로 반복 수정한다.
Cloudflare의 8단계 하네스
- Recon: 아키텍처 맵과 초기 태스크 큐 구성
- Hunt: 특정 공격 클래스를 타겟팅하는 ~50개 병렬 에이전트
- Validate: 오탐 필터링을 위한 독립적 적대적 검토
- Gapfill: 덜 다뤄진 영역 재탐색
- Dedupe: 중복 발견 통합
- Trace: 크로스 레포 분석으로 익스플로잇 가능성 판단
- Feedback: 검증된 발견을 다음 헌팅 사이클에 피드백
- Report: 구조화된 출력 생성
한계와 이중 사용 위험
Mythos는 가드레일이 없음에도 정당한 보안 태스크에서 예측 불가능한 거부 반응을 보였다. Cloudflare는 명시적으로 경고한다. 이 역량은 결국 공격자도 갖게 될 것이다. 방어적 아키텍처(보안 경계 분리, 차단 인프라, 동시 전역 배포)가 빠른 패칭보다 더 중요한 대응이다.
Related Articles
Calif 연구팀이 Anthropic의 Mythos Preview AI와 협력해 Apple M5 실리콘의 Memory Integrity Enforcement(MIE)를 우회하는 최초 공개 커널 메모리 손상 익스플로잇을 단 5일 만에 개발했다. Apple이 5년에 걸쳐 구축한 핵심 보안 시스템이 AI 지원으로 단기간에 뚫렸다.
중요한 점은 Anthropic이 공개하기엔 너무 위험하다고 밀었던 모델이 짧은 시간 안에 두 번 노출됐다는 데 있다. The Verge는 Mythos가 먼저 unsecured data trove로 존재가 새고, 이어 day-one unauthorized access까지 이어졌다고 적었다.
Anthropic이 금융 서비스를 위한 10가지 Claude 에이전트 템플릿을 출시했다. 투자 피치 제작부터 월말 결산까지 전문 금융 업무를 자동화하며, Claude Opus 4.7은 Vals AI 금융 에이전트 벤치마크에서 64.37%로 업계 1위를 기록했다.
Comments (0)
No comments yet. Be the first to comment!