Anthropic, Claude Code auto mode를 분류기 기반 에이전트 자율성 중간지대로 설명

Anthropic가 X에서 밝힌 내용

2026년 3월 25일, Anthropic는 많은 Claude Code 사용자가 이미 permission prompt를 거의 그대로 수락하고 있으며, 실제로 사용자가 93%의 승인 요청을 허용한다고 밝혔다. 회사는 auto mode를 끊임없는 수동 승인과 권한 확인을 완전히 끄는 방식 사이의 중간지대로 소개했다. 핵심 메시지는 approval fatigue를 줄이되, 모델에 무제한 자유를 주지는 않겠다는 것이다.

이 포지셔닝이 중요한 이유는 코딩 에이전트가 점점 더 긴 세션에서 사용되기 때문이다. 거의 모든 행동마다 승인 버튼을 눌러야 한다면 수동 검토의 안전성은 습관적 클릭으로 약해질 수 있다. Anthropic는 모델 기반 승인 계층이 이런 상황에서 단순 반복 승인보다 더 안전할 수 있다고 주장하는 셈이다.

엔지니어링 글이 추가한 정보

Anthropic에 따르면 auto mode는 두 겹의 방어선으로 구성된다. 먼저 서버 측 prompt-injection probe가 tool output을 에이전트 컨텍스트에 넣기 전에 검사한다. 그다음 transcript classifier가 위험한 행동을 실행 전에 평가한다. 이 classifier는 빠른 1차 필터와, 플래그가 걸린 경우에만 실행되는 reasoning 기반 2차 평가로 나뉘며, Anthropic는 이를 통해 지연과 비용을 관리한다고 설명한다.

권한 경계 구조도 구체적으로 공개했다. 안전한 read-only 도구와 일부 좁게 설정된 allow rule은 즉시 통과하고, 프로젝트 디렉터리 내부의 일반적인 파일 수정은 classifier 지연 없이 허용된다. 반면 shell command, web fetch, 외부 integration, subagent handoff, repo 밖 파일시스템 접근 같은 고위험 동작은 최종 승인 classifier로 보낸다. Anthropic는 manual mode에서 자주 쓰이던 광범위한 interpreter 허용 규칙은 auto mode로 이어지지 않는다고 밝히는데, 그런 규칙이야말로 안전 계층을 우회시킬 수 있기 때문이다.

Anthropic는 평가 수치도 함께 공개했다. 회사 설명에 따르면 전체 파이프라인 기준 실제 내부 트래픽에서 false-positive rate는 0.4%까지 내려간다. 실제 overeager action 소규모 세트에서는 17% false-negative rate, synthetic data exfiltration 태스크에서는 5.7% false-negative rate를 보고했다. 글은 auto mode가 --dangerously-skip-permissions보다 실질적으로 더 안전한 대안이 되도록 설계됐지만, 고위험 인프라에서 신중한 인간 검토를 대체하는 기능은 아니라고 분명히 말한다.

왜 중요한가

더 큰 신호는 에이전트 공급사들이 운영 안전성을 별도 정책 문서가 아니라 제품 기능 자체로 다루기 시작했다는 점이다. 분류기 기반 승인이 대부분의 일상적 행동을 흡수하면서 가장 위험한 행동만 차단할 수 있다면, 팀은 너무 시끄럽지 않은 방식으로 장시간 자율 코딩 세션을 운영할 수 있다.

동시에 Anthropic가 공개한 숫자는 이 기능의 성격을 분명히 보여준다. Auto mode는 보장 장치가 아니라 위험을 줄이는 절충안이다. 실무자에게는 이런 솔직함이 오히려 유용하다. 오늘 기준 어디까지 모델 기반 승인을 믿을 수 있고, 어디서부터 인간 검토가 여전히 필요한지를 명확히 해주기 때문이다.

출처: Anthropic X 게시물 · Anthropic 엔지니어링 글

Anthropic, Claude Code auto mode를 분류기 기반 에이전트 자율성 중간지대로 설명

Anthropic가 X에서 밝힌 내용

엔지니어링 글이 추가한 정보

왜 중요한가

Related Articles

Anthropic, 실제 배포 환경에서 AI agent autonomy 측정 결과 공개

Hacker News가 Claude Code용 context-aware permission guard를 검토하다

Anthropic, Claude Sonnet 4.6 공개… 1M token context·coding·computer use 강화

Comments (0)

Leave a Comment

Related Articles

Anthropic, 실제 배포 환경에서 AI agent autonomy 측정 결과 공개
LLM Mar 18, 2026 1 min read

Hacker News가 Claude Code용 context-aware permission guard를 검토하다
LLM Hacker News Mar 12, 2026 2 min read

Anthropic, Claude Sonnet 4.6 공개… 1M token context·coding·computer use 강화
Anthropic가 2026년 2월 17일 Claude Sonnet 4.6을 공개했다. 1M token context beta, 동일한 가격대, 그리고 coding·computer use·long-context reasoning 전반의 성능 향상이 핵심이다.