GPT-5.5의 AISI 사이버 통과, Reddit이 붙잡은 건 20시간이 아니라 1.73달러

Original: GPT5.5 slightly outperformed Mythos on a multi-step cyber-attack simulation. One challenge that took a human expert 12 hrs took GPT-5.5 only 11 min at a $1.73 cost View original →

Read in other languages: English日本語
LLM May 1, 2026 By Insights AI (Reddit) 1 min read Source

이 스레드는 “GPT-5.5가 강하다”에서 끝나지 않았다. 먼저 바로잡을 숫자가 있다. Reddit 제목은 12시간짜리 작업을 11분에 끝냈다고 돌았지만, AISI의 2026년 4월 30일 공식 평가는 두 결과를 따로 제시한다. 하나는 인간 전문가가 약 20시간 걸릴 것으로 본 다단계 기업망 공격 시뮬레이션 TLO를 GPT-5.5가 10회 중 2회 end-to-end로 완주했다는 점이고, 다른 하나는 별도의 어려운 reverse-engineering 과제 rust_vm을 10분 22초, API 비용 1.73달러에 풀었다는 점이다.

AISI의 프레임은 단순 벤치마크보다 훨씬 실전 쪽이다. 평가군은 4개 난이도의 95개 사이버 과제로 구성됐고, reverse engineering, web exploitation, cryptography 같은 능력을 CTF 형식으로 본다. TLO는 권한 없는 공격 박스에서 시작해 정찰, credential theft, lateral movement, CI/CD supply-chain pivot, 내부 데이터 탈취까지 이어진다. GPT-5.5가 이 체인을 완전히 끝낸 것은 100M token budget 기준 10회 중 2회였고, AISI는 아직 성능 plateau를 보지 못했다고 적었다.

Reddit 반응은 크게 두 갈래였다. 하나는 “Mythos만 위험한 게 아니라 이런 수준이 여러 모델로 번지고 있다”는 쪽이다. 다른 하나는 비용과 재현성에 대한 의심이었다. 상단 댓글은 Anthropic의 위험 서사가 마케팅 아니었냐고 비꼬았고, 다른 댓글은 1.73달러 수치가 체감보다 지나치게 낮다고 의심했다. 모델 성능 자체만큼, 누가 어떤 세팅으로 어느 비용에 재현할 수 있느냐가 논점이 된 셈이다.

같은 흐름을 NCSC도 더 넓은 관점에서 짚었다. 2026년 3월 30일 공개한 관련 글에서 NCSC는 공격자 일부가 이미 강한 AI 도구에 접근한다고 가정해야 하며, 방어자도 같은 능력을 방어 쪽에 붙여야 한다고 썼다. 결국 이 뉴스의 무게는 “AI가 해커를 대체했다”가 아니라, 고급 작업의 비용·속도 구조가 계속 낮아지고 있다는 데 있다.

Source: AISI evaluation · NCSC context · Reddit discussion

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment