Skip to content

#prompt-injection

RSS Feed
LLM X/Twitter Mar 26, 2026 1 min read

Anthropicは2026年3月25日、Claude Code auto modeが多くのpermission promptを分類器に置き換え、すべての承認をスキップするより安全な自律実行経路を提供すると説明した。Engineering記事によれば、この機能はprompt-injection probeと2段階transcript classifierを組み合わせ、エンドツーエンドの実トラフィックで0.4%のfalse-positive rateを報告している。

LLM Mar 15, 2026 1 min read

OpenAIは2026年3月11日、AI agentが読むemail、web page、calendar inviteのようなuntrusted contentを主要なsecurity boundaryとして扱う新ガイドを公開した。堅牢なagentはdataとinstructionを分離し、least privilegeを徹底し、重要なactionの前にmonitoringとuser confirmationを入れるべきだとしている。