Skip to content

2,000명이 AI assistant를 공격한 실험, 더 중요한 질문은 응답 설계

Original: What happened after 2k people tried to hack my AI assistant View original →

Read in other languages: English日本語
LLM Jun 26, 2026 By Insights AI (HN) 1 min read Source

Fernando Irarrázaval은 OpenClaw assistant인 Fiu를 공개 이메일 주소 뒤에 두고, 사람들이 secrets.env 내용을 빼내도록 유도하는 실험을 열었다. 실험 기록에 따르면 HN 노출 뒤 2,000명 이상이 6,000개가 넘는 이메일을 보냈지만 secret은 유출되지 않았고, 무단 답장도 발생하지 않았다.

결과만 보면 prompt injection 방어의 성공 사례처럼 보인다. 하지만 논점은 조금 더 까다롭다. Fiu는 비용 문제 때문에 원칙적으로 이메일에 답하지 않도록 설정돼 있었다. 공격자는 secret을 빼내는 동시에 모델이 답장을 하게 만들어야 했다. HN 댓글은 이 조건이 실제 assistant의 위험을 얼마나 대표하는지 물었다. 응답하지 않는 assistant가 안전했다는 사실과, 업무를 수행하는 assistant가 안전하다는 사실은 다르기 때문이다.

실험에서 드러난 운영 문제도 중요하다. 대량 이메일과 API 호출 때문에 Gmail이 정지됐고, API 비용은 500달러를 넘었다. 여러 이메일을 한 컨텍스트에서 배치 처리하자 앞선 공격 시도가 뒤의 판단에 영향을 주는 오염도 생겼다. 작성자는 각 이메일을 fresh context에서 처리하도록 바꿨고, 모델이 실험 상황을 눈치채자 memory 파일을 지우며 재검증했다.

이 사례는 강한 모델과 짧은 금지 규칙만으로도 단순한 secret exfiltration을 꽤 잘 막을 수 있음을 보여준다. 동시에 에이전트 보안 평가는 “비밀을 말했나” 하나로 끝나지 않는다. 실제 제품에서는 답장, 파일 접근, 결제, 외부 호출처럼 더 많은 권한이 붙는다. 커뮤니티가 파고든 지점도 바로 그 차이다.

Share: Long

Related Articles

LLM Mar 15, 2026 1 min read

OpenAI는 2026년 3월 11일 AI agent가 읽는 이메일, 웹페이지, 캘린더 초대 같은 untrusted content가 핵심 보안 경계라고 설명하는 새 가이드를 공개했다. 회사는 안전한 agent가 data와 instruction을 분리하고, least privilege를 적용하며, 중요한 action 전에는 monitoring과 user confirmation을 넣어야 한다고 밝혔다.