Skip to content

#agent-safety

RSS Feed
LLM X/Twitter Mar 26, 2026 1 min read

Anthropicは2026年3月25日、Claude Code auto modeが多くのpermission promptを分類器に置き換え、すべての承認をスキップするより安全な自律実行経路を提供すると説明した。Engineering記事によれば、この機能はprompt-injection probeと2段階transcript classifierを組み合わせ、エンドツーエンドの実トラフィックで0.4%のfalse-positive rateを報告している。