앤스로픽 연구: 실사용 환경에서 AI 에이전트 자율성이 빠르게 증가 중
Original: Anthropic Research Reveals AI Agents Are Rapidly Gaining Autonomy in Real-World Deployments View original →
AI 에이전트 자율성의 현주소
앤스로픽은 2026년 2월 19일, 클로드 코드(Claude Code)와 공개 API를 통한 수백만 건의 실제 상호작용을 분석하여 AI 에이전트 자율성 실태를 실증적으로 측정한 연구를 발표했습니다.
주요 연구 결과
자율성의 급격한 증가
2025년 10월부터 2026년 1월 사이, 99.9번째 백분위 턴 지속 시간이 25분 미만에서 45분 이상으로 거의 두 배 증가했습니다. 연구진은 "현존 모델들이 실제로 사용되는 것보다 더 많은 자율성을 처리할 능력이 있다"고 결론지었습니다.
경험에 따른 감독 방식 변화
신규 사용자는 약 20%의 작업을 자율 승인하는 반면, 숙련된 사용자는 약 40%를 자율 승인합니다. 흥미롭게도 숙련 사용자는 개별 작업 승인 방식에서 전체 세션 모니터링 방식으로 전환하면서 실제 개입도 더 자주 합니다.
소프트웨어 공학이 절반
공개 API에서 에이전트 활동의 약 50%가 소프트웨어 공학 분야이며, 의료·금융·고객 서비스 분야에서도 신흥 활용이 나타나고 있습니다.
안전성 시사점
대부분의 작업(80%)은 권한 요청이나 인간 검토와 같은 안전 장치가 적용되며, 0.8%만이 되돌릴 수 없는 작업입니다. 연구팀은 에이전트가 고위험 도메인으로 확장됨에 따라 배포 후 모니터링 인프라 구축이 중요해질 것이라고 권고합니다.
전체 연구는 앤스로픽 연구 페이지에서 확인할 수 있습니다.
Related Articles
Anthropic이 Code with Claude 런던 행사에서 Claude Managed Agents에 자가 호스팅 샌드박스(공개 베타)와 MCP 터널(리서치 프리뷰)을 출시했다. 민감한 파일과 내부 시스템을 기업 인프라 밖으로 내보내지 않고도 AI 에이전트를 운용할 수 있게 됐다.
AI 연구 자동화가 추상적 위험에서 실험 지표로 이동했다. Anthropic은 Mythos Preview가 최적화 과제에서 약 52배 속도 향상을 냈고, 연구 다음 단계 판단에서도 64% 우위를 보였다고 밝혔다.
r/singularity에서 주목받은 Anthropic의 2026-02-18 연구는 Claude Code와 public API의 대규모 상호작용 데이터를 바탕으로, 자율 실행 시간·auto-approve 패턴·위험 도메인 분포를 정량적으로 제시했다.