Anthropic 보안 특화 AI, 취약점 체인 익스플로잇 자동 생성

Project Glasswing이란

Project Glasswing은 Anthropic이 보안 특화 LLM에 선별된 조직의 접근을 허용하는 통제된 연구 프로그램이다. Cloudflare는 이 프로그램에 참여해 자사 인프라를 대상으로 Mythos Preview 모델을 실전 평가했다. 그 결과를 블로그로 공개했다.

Mythos의 핵심 역량

익스플로잇 체인 구성: Mythos는 낮은 심각도 버그 여러 개를 연결해 단일의 더 심각한 익스플로잇을 만들 수 있다. 이는 자동화된 스캐너가 아닌 시니어 보안 연구자 수준의 추론이다.

증명 생성: 가설에 그치지 않고 코드를 작성·컴파일·실행해 취약점을 검증한다. 초기 가설이 틀렸을 때 자체적으로 반복 수정한다.

Cloudflare의 8단계 하네스

Recon: 아키텍처 맵과 초기 태스크 큐 구성
Hunt: 특정 공격 클래스를 타겟팅하는 ~50개 병렬 에이전트
Validate: 오탐 필터링을 위한 독립적 적대적 검토
Gapfill: 덜 다뤄진 영역 재탐색
Dedupe: 중복 발견 통합
Trace: 크로스 레포 분석으로 익스플로잇 가능성 판단
Feedback: 검증된 발견을 다음 헌팅 사이클에 피드백
Report: 구조화된 출력 생성

한계와 이중 사용 위험

Mythos는 가드레일이 없음에도 정당한 보안 태스크에서 예측 불가능한 거부 반응을 보였다. Cloudflare는 명시적으로 경고한다. 이 역량은 결국 공격자도 갖게 될 것이다. 방어적 아키텍처(보안 경계 분리, 차단 인프라, 동시 전역 배포)가 빠른 패칭보다 더 중요한 대응이다.

Anthropic 보안 특화 AI, 취약점 체인 익스플로잇 자동 생성 — Cloudflare 검증

Project Glasswing이란

Mythos의 핵심 역량

Cloudflare의 8단계 하네스

한계와 이중 사용 위험

Related Articles

GitHub, LLM 문맥 검증으로 secret scanning 오탐 75.76% 줄인 보안 실험

GitLost, 공개 이슈 하나로 private repo를 건드린 AI agent 취약점

Claude 내부 J-space, 숨은 목표 감지와 모델 감사 가능성을 함께 제시