Anthropic、Claude Code auto modeを分類器ベースの自律実行の中間解として詳説

Original: New on the Engineering Blog: How we designed Claude Code auto mode. Many Claude Code users let Claude work without permission prompts. Auto mode is a safer middle ground: we built and tested classifiers that make approval decisions instead. Read more: https://www.anthropic.com/engineering/claude-code-auto-mode View original →

Read in other languages: 한국어English
LLM Mar 26, 2026 By Insights AI 1 min read Source

AnthropicがXで発表した内容

2026年3月25日、Anthropicは、多くのClaude Code利用者がpermission promptをほぼそのまま承認しており、実際にユーザーは承認要求の93%を許可していると述べた。そこで同社はauto modeを、絶え間ない手動承認と権限確認を完全に無効化する方式の中間にある選択肢として打ち出した。狙いはapproval fatigueを減らしつつ、モデルに無制限の自由を与えないことにある。

この位置づけが重要なのは、コーディングエージェントが長時間セッションで使われることが増えているからだ。ほぼすべての行動で承認ボタンを押させる運用では、手動レビューの安全性は習慣的なクリックに溶けてしまう。Anthropicは、モデルベースの承認レイヤーがそうした状況で単純な連打より安全になりうると主張している。

Engineering記事が補足した点

Anthropicによれば、auto modeは2層の防御で構成される。まずサーバー側のprompt-injection probeがtool outputをエージェント文脈に入れる前に検査する。次にtranscript classifierが危険な操作を実行前に評価する。このclassifierは高速な第1段階フィルターと、フラグが立った場合にだけ動くreasoningベースの第2段階から成り、Anthropicはこれにより遅延とコストを抑えるとしている。

権限境界の設計も詳細に公開された。安全なread-onlyツールと一部の狭いallow ruleは即時通過し、プロジェクトディレクトリ内の通常の編集はclassifier遅延なしで実行できる。一方、shell command、web fetch、外部integration、subagent handoff、リポジトリ外のfilesystem操作など、実害の大きい行動は最終承認classifierに送られる。Anthropicは、manual modeで便利に使われていた広範なinterpreter許可はauto modeに持ち越さないと述べており、その理由は安全層を丸ごと迂回しうるからだ。

Anthropicは評価数値も提示した。エンドツーエンドのパイプラインでは、実トラフィック上のfalse-positive rateが0.4%まで下がるという。実際のovereager actionを集めた小規模セットでは17%のfalse-negative rate、synthetic data exfiltrationタスクでは5.7%のfalse-negative rateを報告している。記事は、auto modeは--dangerously-skip-permissionsより実質的に安全な代替を目指した機能であり、高リスクなインフラ運用で慎重な人間レビューを置き換えるものではないと明言している。

なぜ重要か

より大きなシグナルは、エージェント提供企業が運用上の安全性を別紙のポリシーではなく製品機能そのものとして実装し始めたことだ。分類器ベースの承認が大半の日常的な行動を吸収しつつ最も危険な行動だけを止められるなら、チームは過度な中断なしで長時間の自律コーディングを扱いやすくなる。

同時に、Anthropic自身の数値はこの機能が保証装置ではなく、リスクを下げる折衷案であることも示している。その正直さ自体が実務的には重要だ。どこまでモデルベース承認を信頼でき、どこから先は依然として人間レビューが必要かを現実的に示しているからだ。

出典: Anthropic X投稿 · Anthropic Engineering記事

Share: Long

Related Articles

LLM Mar 18, 2026 1 min read

Anthropicは、Claude Code と public API にまたがる数百万件の interaction を分析し、実際の現場で AI agent にどれだけの autonomy が与えられているかを測定した研究を公開した。最長クラスの Claude Code turn は3か月で under 25 minutes から over 45 minutes に伸び、熟練ユーザーほど auto-approve を使う一方で interrupt も増えることが分かった。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.