Redditの議論は恐怖より検証可能性に向かった。マイク、スピーカー、圧縮を通って命令が安定して届くかが焦点だ。
#prompt-injection
RSS FeedXユーザーがモールス符号でエンコードしたプロンプトインジェクションを使い、Grokに接続されたBankrbotに30億DRBトークン(約20万ドル相当)を攻撃者のウォレットへ送金させることに成功した。
Cloudflareは2026年4月11日のX投稿で、AI appの防御はもはや rate limiting だけでは足りないと打ち出した。関連資料を見ると、LLM endpoint discovery、prompt-level detection、WAF mitigation を edge security の標準フローに組み込もうとしている。
Anthropicは2026年3月25日、Claude Code auto modeが多くのpermission promptを分類器に置き換え、すべての承認をスキップするより安全な自律実行経路を提供すると説明した。Engineering記事によれば、この機能はprompt-injection probeと2段階transcript classifierを組み合わせ、エンドツーエンドの実トラフィックで0.4%のfalse-positive rateを報告している。
OpenAIが2026年2月13日にChatGPT向けのLockdown ModeとElevated Risk labelsを公開した。webやconnected appを使うAI productでprompt injectionリスクが高まるなか、高リスク利用者向けの強い制御と明確な注意表示を加えた形だ。
OpenAIは2026年3月10日、frontier LLMのinstruction hierarchy挙動を改善し、safety steerabilityとprompt injection耐性を同時に高めるためのIH-Challengeを公開した。あわせて追加研究向けにdatasetもHugging Faceで公開している。
OpenAIは2026年3月11日、AI agentが読むemail、web page、calendar inviteのようなuntrusted contentを主要なsecurity boundaryとして扱う新ガイドを公開した。堅牢なagentはdataとinstructionを分離し、least privilegeを徹底し、重要なactionの前にmonitoringとuser confirmationを入れるべきだとしている。
Hacker Newsで注目されたCline関連インシデントを整理する。GitHub issue titleのprompt injectionからCI実行、cache poisoning、認証情報流出、改ざんパッケージ配布に至る連鎖と、実運用で必要な防御策をまとめた。
r/artificialで共有されたセキュリティ研究は、zero-width文字とUnicode Tagsによる不可視指示がツール利用型LLMエージェントへ与える影響を検証した。公開概要は5モデル・8,308出力の評価を示している。
r/MachineLearningの投稿が、公開されたAgentインスタンスとコミュニティスキルの安全性を巡る懸念を提示し、実運用レベルの防御策議論を促した。
r/MachineLearningで高い反応(スコア390、コメント52)を集めた投稿をもとに、ICMLのLLM利用禁止方針とPDF内隠しテキスト疑惑が査読運用へ与える影響を整理した。