GPT-5.5, 전문가 12시간짜리 사이버 공격 시뮬레이션 11분에 완료

AISI 평가 결과

영국 AI 안전 연구소(AISI)가 OpenAI의 GPT-5.5에 대한 사이버 보안 평가 결과를 공개했다. 핵심 수치는 이렇다. 인간 전문가가 최대 12시간이 걸리는 다단계 기업 네트워크 침투 시뮬레이션을, GPT-5.5는 단 11분에 완료했다. 비용은 $1.73이었다.

두 번째 모델, 같은 벽을 넘다

AISI는 올해 4월 Anthropic의 Claude Mythos Preview가 이 기준을 처음으로 통과했다고 밝혔다. 당시 핵심 질문은 이것이 한 모델만의 예외적 돌파구인지, 아니면 더 넓은 추세인지였다. GPT-5.5의 결과가 그 답을 내놓았다. 서로 다른 두 개발사의 두 모델이 같은 기준을 통과했다는 건, 이 역량이 업계 전반에서 성숙해가고 있다는 신호다.

평가 과제 구조

AISI의 사이버 평가 스위트는 95개 과제를 네 가지 난이도로 분류한다. 기본 과제는 2026년 2월 이전부터 주요 모델들이 완전히 해결하고 있었다. GPT-5.5의 성과는 훨씬 난이도 높은 고급 과제에서 나왔다. 스트립된 바이너리 리버스 엔지니어링, 힙 오버플로우 익스플로잇, UAF(Use-After-Free) 공격 등 실제 환경과 최신 보안 완화 기법을 대상으로 설계된 과제들이다.

공격자와 방어자 모두에게 보내는 경고

AISI는 이 역량이 악의적 행위자에게 활용될 가능성을 경계하면서도, 방어자들도 같은 AI를 탐지 및 대응에 활용할 수 있다고 강조했다. 기관은 평가 결과를 모델 출시 전 OpenAI와 사전 공유했으며, 협력적 사전 평가가 AI 안전 생태계의 표준 관행으로 자리잡아가고 있다. 방어자들이 AI 기반 탐지를 더 빠르게 도입하는 것이 지금 당장 요구되는 과제다.