GPT-5.5, 전문가 12시간짜리 사이버 공격 시뮬레이션 11분에 완료
Original: GPT5.5 slightly outperformed Mythos on a multi-step cyber-attack simulation. One challenge that took a human expert 12 hrs took GPT-5.5 only 11 min at a $1.73 cost View original →
AISI 평가 결과
영국 AI 안전 연구소(AISI)가 OpenAI의 GPT-5.5에 대한 사이버 보안 평가 결과를 공개했다. 핵심 수치는 이렇다. 인간 전문가가 최대 12시간이 걸리는 다단계 기업 네트워크 침투 시뮬레이션을, GPT-5.5는 단 11분에 완료했다. 비용은 $1.73이었다.
두 번째 모델, 같은 벽을 넘다
AISI는 올해 4월 Anthropic의 Claude Mythos Preview가 이 기준을 처음으로 통과했다고 밝혔다. 당시 핵심 질문은 이것이 한 모델만의 예외적 돌파구인지, 아니면 더 넓은 추세인지였다. GPT-5.5의 결과가 그 답을 내놓았다. 서로 다른 두 개발사의 두 모델이 같은 기준을 통과했다는 건, 이 역량이 업계 전반에서 성숙해가고 있다는 신호다.
평가 과제 구조
AISI의 사이버 평가 스위트는 95개 과제를 네 가지 난이도로 분류한다. 기본 과제는 2026년 2월 이전부터 주요 모델들이 완전히 해결하고 있었다. GPT-5.5의 성과는 훨씬 난이도 높은 고급 과제에서 나왔다. 스트립된 바이너리 리버스 엔지니어링, 힙 오버플로우 익스플로잇, UAF(Use-After-Free) 공격 등 실제 환경과 최신 보안 완화 기법을 대상으로 설계된 과제들이다.
공격자와 방어자 모두에게 보내는 경고
AISI는 이 역량이 악의적 행위자에게 활용될 가능성을 경계하면서도, 방어자들도 같은 AI를 탐지 및 대응에 활용할 수 있다고 강조했다. 기관은 평가 결과를 모델 출시 전 OpenAI와 사전 공유했으며, 협력적 사전 평가가 AI 안전 생태계의 표준 관행으로 자리잡아가고 있다. 방어자들이 AI 기반 탐지를 더 빠르게 도입하는 것이 지금 당장 요구되는 과제다.
Related Articles
OpenAI가 GPT-5.4-Cyber 접근을 일부 보안 연구자와 대형 방어 조직으로 넓히며, $10 million API credit과 평가기관 접근까지 묶었다. 핵심은 더 강한 cyber model을 막아두는 대신 신원 검증, 책임 추적, 단계별 권한으로 배포하겠다는 운영 방식이다.
미국 공공기관이 보안 승인 장벽 때문에 멈춰 있던 생성형 AI 도입을 더 빨리 실제 업무로 옮길 수 있게 됐다. OpenAI는 ChatGPT Enterprise와 API Platform이 FedRAMP 20x Moderate를 통과해, 연방기관이 GPT-5.5와 향후 Codex Cloud까지 검토할 수 있는 길을 열었다.
OpenAI는 사이버 경쟁의 질문을 “누가 더 강한 모델을 갖고 있나”에서 “누가 방어 도구를 더 넓게 배포하나”로 옮기려 한다. 2026년 4월 29일 공개한 계획은 다섯 축으로 정리됐고, 그중 핵심은 방어 접근 확대와 고위험 배치의 가시성 유지다.
Comments (0)
No comments yet. Be the first to comment!