2,000人がAI assistantを攻撃した実験、焦点は応答設計へ

Fernando IrarrázavalはOpenClaw assistantのFiuを公開メールアドレスの先に置き、secrets.envを漏らさせる実験を行った。実験記録によると、HN掲載後に2,000人以上が6,000通を超えるメールを送り、secretは漏れず、無許可の返信も発生しなかった。

一見するとprompt injection防御の成功例だ。ただしHNの議論は、そこから一歩進んだ。Fiuは費用の問題もあり、原則としてメールに返信しないよう指示されていた。攻撃者はsecretを引き出すだけでなく、返信そのものも起こす必要があった。この条件が実際のassistantの危険性をどこまで代表するのか、という問いが出た。

運用面の失敗も重要な材料になった。大量の受信メールとAPI呼び出しでGmailアカウントは停止され、API費用は500ドルを超えた。複数メールを同じコンテキストで処理した結果、先の攻撃が後続メールの判断に影響する汚染も起きた。作者は各メールをfresh contextで処理する形に変え、モデルが実験だと気づいた場面ではmemoryファイルを削除して再検証した。

この実験は、強いモデルと短い禁止ルールでも単純なsecret exfiltrationにはかなり耐えられることを示した。一方で、エージェント安全性は「秘密を言ったか」だけでは測れない。現実の製品では返信、ファイル操作、外部呼び出し、支払いなどの権限が付く。コミュニティの関心は、その次のテストに向いている。

LLM Hacker News Jun 6, 2026 1 min read

Anthropicの脆弱性発見harness、製品というよりチーム用の設計図

HNで注目されたのは「Claudeがバグを見つける」話だけでなく、各チームが自分の対象に合わせて作り替えるharnessの形だった。

#anthropic #claude #security

LLM 2d ago 1 min read

Claude Tag、Slackチャンネルをチーム共有のAI作業場に変える

AI agentは個人チャットから、権限と記憶を持つチームの作業場所へ入り始めた。Anthropicは2026年6月23日、Claude EnterpriseとTeam向けにSlack betaのClaude Tagを開放し、社内製品チームのコードの65%が内部版から生まれていると説明した。

#anthropic #claude #slack

LLM Mar 15, 2026 1 min read

OpenAI、AI agentをprompt injectionに強くする設計原則を公開

OpenAIは2026年3月11日、AI agentが読むemail、web page、calendar inviteのようなuntrusted contentを主要なsecurity boundaryとして扱う新ガイドを公開した。堅牢なagentはdataとinstructionを分離し、least privilegeを徹底し、重要なactionの前にmonitoringとuser confirmationを入れるべきだとしている。

#openai #agents #security

Related Articles

Anthropicの脆弱性発見harness、製品というよりチーム用の設計図

Claude Tag、Slackチャンネルをチーム共有のAI作業場に変える

OpenAI、AI agentをprompt injectionに強くする設計原則を公開