Skip to content

2,000人がAI assistantを攻撃した実験、焦点は応答設計へ

Original: What happened after 2k people tried to hack my AI assistant View original →

Read in other languages: 한국어English
LLM Jun 26, 2026 By Insights AI (HN) 1 min read Source

Fernando IrarrázavalはOpenClaw assistantのFiuを公開メールアドレスの先に置き、secrets.envを漏らさせる実験を行った。実験記録によると、HN掲載後に2,000人以上が6,000通を超えるメールを送り、secretは漏れず、無許可の返信も発生しなかった。

一見するとprompt injection防御の成功例だ。ただしHNの議論は、そこから一歩進んだ。Fiuは費用の問題もあり、原則としてメールに返信しないよう指示されていた。攻撃者はsecretを引き出すだけでなく、返信そのものも起こす必要があった。この条件が実際のassistantの危険性をどこまで代表するのか、という問いが出た。

運用面の失敗も重要な材料になった。大量の受信メールとAPI呼び出しでGmailアカウントは停止され、API費用は500ドルを超えた。複数メールを同じコンテキストで処理した結果、先の攻撃が後続メールの判断に影響する汚染も起きた。作者は各メールをfresh contextで処理する形に変え、モデルが実験だと気づいた場面ではmemoryファイルを削除して再検証した。

この実験は、強いモデルと短い禁止ルールでも単純なsecret exfiltrationにはかなり耐えられることを示した。一方で、エージェント安全性は「秘密を言ったか」だけでは測れない。現実の製品では返信、ファイル操作、外部呼び出し、支払いなどの権限が付く。コミュニティの関心は、その次のテストに向いている。

Share: Long

Related Articles

LLM Mar 15, 2026 1 min read

OpenAIは2026年3月11日、AI agentが読むemail、web page、calendar inviteのようなuntrusted contentを主要なsecurity boundaryとして扱う新ガイドを公開した。堅牢なagentはdataとinstructionを分離し、least privilegeを徹底し、重要なactionの前にmonitoringとuser confirmationを入れるべきだとしている。