#prompt-injection

Cloudflareは2026年4月11日のX投稿で、AI appの防御はもはや rate limiting だけでは足りないと打ち出した。関連資料を見ると、LLM endpoint discovery、prompt-level detection、WAF mitigation を edge security の標準フローに組み込もうとしている。

#cloudflare #llm-security #prompt-injection

LLM X/Twitter Mar 26, 2026 1 min read

Anthropic、Claude Code auto modeを分類器ベースの自律実行の中間解として詳説

Anthropicは2026年3月25日、Claude Code auto modeが多くのpermission promptを分類器に置き換え、すべての承認をスキップするより安全な自律実行経路を提供すると説明した。Engineering記事によれば、この機能はprompt-injection probeと2段階transcript classifierを組み合わせ、エンドツーエンドの実トラフィックで0.4%のfalse-positive rateを報告している。

#anthropic #claude-code #agent-safety

AI Mar 23, 2026 1 min read

OpenAI、ChatGPTにLockdown Mode導入　prompt injection対策とElevated Risk表示を標準化

OpenAIが2026年2月13日にChatGPT向けのLockdown ModeとElevated Risk labelsを公開した。webやconnected appを使うAI productでprompt injectionリスクが高まるなか、高リスク利用者向けの強い制御と明確な注意表示を加えた形だ。

#openai #chatgpt #security

LLM Mar 16, 2026 1 min read

OpenAI、instruction hierarchyとprompt injection耐性を強化するIH-Challengeを公開

OpenAIは2026年3月10日、frontier LLMのinstruction hierarchy挙動を改善し、safety steerabilityとprompt injection耐性を同時に高めるためのIH-Challengeを公開した。あわせて追加研究向けにdatasetもHugging Faceで公開している。

#openai #alignment #prompt-injection

LLM Mar 15, 2026 1 min read

OpenAI、AI agentをprompt injectionに強くする設計原則を公開

OpenAIは2026年3月11日、AI agentが読むemail、web page、calendar inviteのようなuntrusted contentを主要なsecurity boundaryとして扱う新ガイドを公開した。堅牢なagentはdataとinstructionを分離し、least privilegeを徹底し、重要なactionの前にmonitoringとuser confirmationを入れるべきだとしている。

#openai #agents #security

AI Hacker News Mar 6, 2026 1 min read