LLM 해킹 실험에 $1,500, 성능보다 더 드러난 guardrail과 harness 차이

보안 연구자 Kasra Rahjerdi가 일부러 취약한 React Native 앱과 Python backend를 만들고, 여러 LLM에게 private review 속 flag를 찾게 했다. 비용은 $1,500까지 올라갔고, 실험은 과학적 benchmark라기보다 “현실적인 취약점 유형을 agent가 끝까지 추적할 수 있는가”를 본 기록에 가깝다.

취약점은 API 자체보다 Firebase 데이터 계층에 있었다. 앱 안의 google-services.json 정보를 이용해 직접 Firebase에 가입하고 Firestore를 읽으면 되는 구조다. 저자는 이런 유형이 Firebase와 Supabase 앱에서 실제로 보이는 Broken Access Control 또는 Missing Object-Level Authorization 문제라고 설명했다.

결과표만 보면 GPT-5.5가 10회 중 7회 성공했고, Deepseek V4 Pro는 3회, Claude Sonnet 4.6과 Opus 4.8은 각각 2회 성공했다. 여러 모델은 API와 앱 코드만 파고들다가 Firebase 직접 접근이라는 경로를 놓쳤다. Gemini 일부 모델은 초반부터 보안 사유로 거절했고, Claude 계열은 맞는 방향으로 가다가 예산이나 guardrail에 막힌 사례가 있었다.

HN 댓글은 이 결과를 모델 능력 순위로 단순화하지 않았다. OpenAI 계정이 보안 연구용으로 승인돼 있었다는 조건, Claude Code와 다른 harness의 차이, “모델 혼자 끝까지 하게 하는 방식” 자체의 한계가 지적됐다. 보안 agent 평가는 모델의 지식뿐 아니라 권한 설정, refusal 정책, 도구 루프, 사용자와의 협업 방식이 함께 섞인다. 이 실험의 가치는 순위표보다 그 혼합물이 실제 공격·감사 workflow를 어떻게 바꾸는지 보여준 데 있다.