アンソロピック研究:実際の環境でAIエージェントの自律性が急速に拡大中
Original: Anthropic Research Reveals AI Agents Are Rapidly Gaining Autonomy in Real-World Deployments View original →
実環境におけるAIエージェント自律性の計測
2026年2月19日、アンソロピックはClaude CodeおよびパブリックAPIを通じた数百万件のリアルタイムやり取りを分析し、AIエージェントの自律性の現状を把握する研究を発表しました。
主な調査結果
急速に高まる自律性
2025年10月から2026年1月の間に、99.9パーセンタイルのセッション継続時間が25分未満から45分超へとほぼ倍増しました。研究者は「既存モデルは実際の使用で発揮している以上の自律性能力を持っている」と結論付けています。
経験によって変わる監視スタイル
新規ユーザーは約20%のアクションを自律承認するのに対し、熟練ユーザーは約40%を承認します。熟練ユーザーは個別アクション承認からセッション全体を監視する方式へとシフトしながらも、より頻繁に介入します。
ソフトウェアエンジニアリングが約半数
パブリックAPIにおけるエージェントのツール呼び出しの約50%がソフトウェアエンジニアリング分野であり、医療・金融・カスタマーサービスでの活用も広がっています。
安全性への示唆
アクションの80%には許可要求や人間レビューなどの安全策が設けられており、取り消し不能なアクションは0.8%にとどまります。研究者はエージェントが高リスク領域へ拡大するにつれ、デプロイ後の監視基盤の整備が重要になると勧告しています。
全研究はアンソロピックリサーチページでご覧いただけます。
Related Articles
AnthropicはCode with Claude Londonイベントで、Claude Managed Agentsに自社ホスト型サンドボックス(パブリックベータ)とMCPトンネル(リサーチプレビュー)を発表。企業が機密データを外部に出さずにAIエージェントを自社インフラ内で完全に運用できるようになる。
AIによるAI開発は抽象論から実測指標へ移りつつある。AnthropicはMythos Previewが最適化課題で約52倍、研究判断テストで64%の優位を示したと説明した。
r/singularityで拡散したAnthropicの2026-02-18研究は、Claude Codeとpublic APIの実データを基に、自律実行時間、auto-approve傾向、リスク領域での利用状況を提示した。