2,000명이 AI assistant를 공격한 실험, 더 중요한 질문은 응답 설계

Fernando Irarrázaval은 OpenClaw assistant인 Fiu를 공개 이메일 주소 뒤에 두고, 사람들이 secrets.env 내용을 빼내도록 유도하는 실험을 열었다. 실험 기록에 따르면 HN 노출 뒤 2,000명 이상이 6,000개가 넘는 이메일을 보냈지만 secret은 유출되지 않았고, 무단 답장도 발생하지 않았다.

결과만 보면 prompt injection 방어의 성공 사례처럼 보인다. 하지만 논점은 조금 더 까다롭다. Fiu는 비용 문제 때문에 원칙적으로 이메일에 답하지 않도록 설정돼 있었다. 공격자는 secret을 빼내는 동시에 모델이 답장을 하게 만들어야 했다. HN 댓글은 이 조건이 실제 assistant의 위험을 얼마나 대표하는지 물었다. 응답하지 않는 assistant가 안전했다는 사실과, 업무를 수행하는 assistant가 안전하다는 사실은 다르기 때문이다.

실험에서 드러난 운영 문제도 중요하다. 대량 이메일과 API 호출 때문에 Gmail이 정지됐고, API 비용은 500달러를 넘었다. 여러 이메일을 한 컨텍스트에서 배치 처리하자 앞선 공격 시도가 뒤의 판단에 영향을 주는 오염도 생겼다. 작성자는 각 이메일을 fresh context에서 처리하도록 바꿨고, 모델이 실험 상황을 눈치채자 memory 파일을 지우며 재검증했다.

이 사례는 강한 모델과 짧은 금지 규칙만으로도 단순한 secret exfiltration을 꽤 잘 막을 수 있음을 보여준다. 동시에 에이전트 보안 평가는 “비밀을 말했나” 하나로 끝나지 않는다. 실제 제품에서는 답장, 파일 접근, 결제, 외부 호출처럼 더 많은 권한이 붙는다. 커뮤니티가 파고든 지점도 바로 그 차이다.

2,000명이 AI assistant를 공격한 실험, 더 중요한 질문은 응답 설계

Related Articles

Anthropic vuln harness, 제품보다 실험대에 가까운 이유

Claude Tag, Slack 채널 안으로 들어온 팀 단위 AI 동료 실험

OpenAI, AI agent를 prompt injection에 강하게 만드는 설계 원칙 공개

Related Articles

Anthropic vuln harness, 제품보다 실험대에 가까운 이유
LLM Hacker News Jun 6, 2026 1 min read

Claude Tag, Slack 채널 안으로 들어온 팀 단위 AI 동료 실험

OpenAI, AI agent를 prompt injection에 강하게 만드는 설계 원칙 공개
LLM Mar 15, 2026 1 min read