Anthropic、Claude Code auto modeを分類器ベースの自律実行の中間解として詳説

AnthropicがXで発表した内容

2026年3月25日、Anthropicは、多くのClaude Code利用者がpermission promptをほぼそのまま承認しており、実際にユーザーは承認要求の93%を許可していると述べた。そこで同社はauto modeを、絶え間ない手動承認と権限確認を完全に無効化する方式の中間にある選択肢として打ち出した。狙いはapproval fatigueを減らしつつ、モデルに無制限の自由を与えないことにある。

この位置づけが重要なのは、コーディングエージェントが長時間セッションで使われることが増えているからだ。ほぼすべての行動で承認ボタンを押させる運用では、手動レビューの安全性は習慣的なクリックに溶けてしまう。Anthropicは、モデルベースの承認レイヤーがそうした状況で単純な連打より安全になりうると主張している。

Engineering記事が補足した点

Anthropicによれば、auto modeは2層の防御で構成される。まずサーバー側のprompt-injection probeがtool outputをエージェント文脈に入れる前に検査する。次にtranscript classifierが危険な操作を実行前に評価する。このclassifierは高速な第1段階フィルターと、フラグが立った場合にだけ動くreasoningベースの第2段階から成り、Anthropicはこれにより遅延とコストを抑えるとしている。

権限境界の設計も詳細に公開された。安全なread-onlyツールと一部の狭いallow ruleは即時通過し、プロジェクトディレクトリ内の通常の編集はclassifier遅延なしで実行できる。一方、shell command、web fetch、外部integration、subagent handoff、リポジトリ外のfilesystem操作など、実害の大きい行動は最終承認classifierに送られる。Anthropicは、manual modeで便利に使われていた広範なinterpreter許可はauto modeに持ち越さないと述べており、その理由は安全層を丸ごと迂回しうるからだ。

Anthropicは評価数値も提示した。エンドツーエンドのパイプラインでは、実トラフィック上のfalse-positive rateが0.4%まで下がるという。実際のovereager actionを集めた小規模セットでは17%のfalse-negative rate、synthetic data exfiltrationタスクでは5.7%のfalse-negative rateを報告している。記事は、auto modeは--dangerously-skip-permissionsより実質的に安全な代替を目指した機能であり、高リスクなインフラ運用で慎重な人間レビューを置き換えるものではないと明言している。

なぜ重要か

より大きなシグナルは、エージェント提供企業が運用上の安全性を別紙のポリシーではなく製品機能そのものとして実装し始めたことだ。分類器ベースの承認が大半の日常的な行動を吸収しつつ最も危険な行動だけを止められるなら、チームは過度な中断なしで長時間の自律コーディングを扱いやすくなる。

同時に、Anthropic自身の数値はこの機能が保証装置ではなく、リスクを下げる折衷案であることも示している。その正直さ自体が実務的には重要だ。どこまでモデルベース承認を信頼でき、どこから先は依然として人間レビューが必要かを現実的に示しているからだ。

出典: Anthropic X投稿 · Anthropic Engineering記事

Anthropic、Claude Code auto modeを分類器ベースの自律実行の中間解として詳説

AnthropicがXで発表した内容

Engineering記事が補足した点

なぜ重要か

Related Articles

Anthropic、実運用での AI agent autonomy 測定結果を公開

Anthropic、frontend designと長時間software engineering向けmulti-agent harnessを詳解

Anthropic Economic Index: 経験を積んだClaude userほど反復が増え、完全自律委任は減る

Comments (0)

Leave a Comment