LLM 해킹 실험에 $1,500, 성능보다 더 드러난 guardrail과 harness 차이
Original: I built a vulnerable app and spent $1,500 seeing if LLMs could hack it View original →
보안 연구자 Kasra Rahjerdi가 일부러 취약한 React Native 앱과 Python backend를 만들고, 여러 LLM에게 private review 속 flag를 찾게 했다. 비용은 $1,500까지 올라갔고, 실험은 과학적 benchmark라기보다 “현실적인 취약점 유형을 agent가 끝까지 추적할 수 있는가”를 본 기록에 가깝다.
취약점은 API 자체보다 Firebase 데이터 계층에 있었다. 앱 안의 google-services.json 정보를 이용해 직접 Firebase에 가입하고 Firestore를 읽으면 되는 구조다. 저자는 이런 유형이 Firebase와 Supabase 앱에서 실제로 보이는 Broken Access Control 또는 Missing Object-Level Authorization 문제라고 설명했다.
결과표만 보면 GPT-5.5가 10회 중 7회 성공했고, Deepseek V4 Pro는 3회, Claude Sonnet 4.6과 Opus 4.8은 각각 2회 성공했다. 여러 모델은 API와 앱 코드만 파고들다가 Firebase 직접 접근이라는 경로를 놓쳤다. Gemini 일부 모델은 초반부터 보안 사유로 거절했고, Claude 계열은 맞는 방향으로 가다가 예산이나 guardrail에 막힌 사례가 있었다.
HN 댓글은 이 결과를 모델 능력 순위로 단순화하지 않았다. OpenAI 계정이 보안 연구용으로 승인돼 있었다는 조건, Claude Code와 다른 harness의 차이, “모델 혼자 끝까지 하게 하는 방식” 자체의 한계가 지적됐다. 보안 agent 평가는 모델의 지식뿐 아니라 권한 설정, refusal 정책, 도구 루프, 사용자와의 협업 방식이 함께 섞인다. 이 실험의 가치는 순위표보다 그 혼합물이 실제 공격·감사 workflow를 어떻게 바꾸는지 보여준 데 있다.
Related Articles
Claude 수요를 감당할 자금 전쟁이 한 단계 커졌다. Anthropic은 $65B Series H로 post-money valuation $965B를 찍었고, run-rate revenue가 이달 초 $47B를 넘었다고 밝혔다.
Quandri 엔지니어링 팀이 MCP(Model Context Protocol)의 세 가지 구조적 결함을 분석했다. 컨텍스트 낭비, 낮은 신뢰성, 기존 인프라와의 중복이 핵심 문제다.
2026년 선거 대응이 챗봇 답변 조정에서 실제 개표 데이터와 이미지 출처 검증으로 옮겨간다. OpenAI는 미국·브라질 선거에서 AP 실시간 개표 데이터를 연결하고, SynthID와 C2PA를 함께 쓰는 공개 검증 도구를 예고했다.