GPT-5.5, 전문가 12시간짜리 사이버 공격 시뮬레이션 11분에 완료
Original: GPT5.5 slightly outperformed Mythos on a multi-step cyber-attack simulation. One challenge that took a human expert 12 hrs took GPT-5.5 only 11 min at a $1.73 cost View original →
AISI 평가 결과
영국 AI 안전 연구소(AISI)가 OpenAI의 GPT-5.5에 대한 사이버 보안 평가 결과를 공개했다. 핵심 수치는 이렇다. 인간 전문가가 최대 12시간이 걸리는 다단계 기업 네트워크 침투 시뮬레이션을, GPT-5.5는 단 11분에 완료했다. 비용은 $1.73이었다.
두 번째 모델, 같은 벽을 넘다
AISI는 올해 4월 Anthropic의 Claude Mythos Preview가 이 기준을 처음으로 통과했다고 밝혔다. 당시 핵심 질문은 이것이 한 모델만의 예외적 돌파구인지, 아니면 더 넓은 추세인지였다. GPT-5.5의 결과가 그 답을 내놓았다. 서로 다른 두 개발사의 두 모델이 같은 기준을 통과했다는 건, 이 역량이 업계 전반에서 성숙해가고 있다는 신호다.
평가 과제 구조
AISI의 사이버 평가 스위트는 95개 과제를 네 가지 난이도로 분류한다. 기본 과제는 2026년 2월 이전부터 주요 모델들이 완전히 해결하고 있었다. GPT-5.5의 성과는 훨씬 난이도 높은 고급 과제에서 나왔다. 스트립된 바이너리 리버스 엔지니어링, 힙 오버플로우 익스플로잇, UAF(Use-After-Free) 공격 등 실제 환경과 최신 보안 완화 기법을 대상으로 설계된 과제들이다.
공격자와 방어자 모두에게 보내는 경고
AISI는 이 역량이 악의적 행위자에게 활용될 가능성을 경계하면서도, 방어자들도 같은 AI를 탐지 및 대응에 활용할 수 있다고 강조했다. 기관은 평가 결과를 모델 출시 전 OpenAI와 사전 공유했으며, 협력적 사전 평가가 AI 안전 생태계의 표준 관행으로 자리잡아가고 있다. 방어자들이 AI 기반 탐지를 더 빠르게 도입하는 것이 지금 당장 요구되는 과제다.
Related Articles
OpenAI는 2026년 2월 악용 대응 보고서에서 중국에서 시작된 7개 작전과 연계된 계정을 차단했다고 밝혔다. 활동 유형은 사이버 보안 악용, 은밀한 영향 공작, 사기였으며 전체 악용 비중은 여전히 낮다고 설명했다.
Sam Altman이 4월 30일 사이버 보안 전용 프론티어 AI 모델 GPT-5.5-Cyber의 출시를 발표했다. 초기에는 핵심 사이버 방어자들에게만 제공되며, 기업과 국가 인프라 보안 강화를 목표로 한다.
생물안보 방어에 frontier AI를 투입하는 범위가 넓어졌다. OpenAI는 Rosalind Biodefense와 GPT-Rosalind의 선별 접근을 통해 미국 정부와 동맹 파트너가 예방·탐지·대응 역량을 개발하도록 하겠다고 밝혔다.