Anthropic, Claude Code auto mode를 분류기 기반 에이전트 자율성 중간지대로 설명
Original: New on the Engineering Blog: How we designed Claude Code auto mode. Many Claude Code users let Claude work without permission prompts. Auto mode is a safer middle ground: we built and tested classifiers that make approval decisions instead. Read more: https://www.anthropic.com/engineering/claude-code-auto-mode View original →
Anthropic가 X에서 밝힌 내용
2026년 3월 25일, Anthropic는 많은 Claude Code 사용자가 이미 permission prompt를 거의 그대로 수락하고 있으며, 실제로 사용자가 93%의 승인 요청을 허용한다고 밝혔다. 회사는 auto mode를 끊임없는 수동 승인과 권한 확인을 완전히 끄는 방식 사이의 중간지대로 소개했다. 핵심 메시지는 approval fatigue를 줄이되, 모델에 무제한 자유를 주지는 않겠다는 것이다.
이 포지셔닝이 중요한 이유는 코딩 에이전트가 점점 더 긴 세션에서 사용되기 때문이다. 거의 모든 행동마다 승인 버튼을 눌러야 한다면 수동 검토의 안전성은 습관적 클릭으로 약해질 수 있다. Anthropic는 모델 기반 승인 계층이 이런 상황에서 단순 반복 승인보다 더 안전할 수 있다고 주장하는 셈이다.
엔지니어링 글이 추가한 정보
Anthropic에 따르면 auto mode는 두 겹의 방어선으로 구성된다. 먼저 서버 측 prompt-injection probe가 tool output을 에이전트 컨텍스트에 넣기 전에 검사한다. 그다음 transcript classifier가 위험한 행동을 실행 전에 평가한다. 이 classifier는 빠른 1차 필터와, 플래그가 걸린 경우에만 실행되는 reasoning 기반 2차 평가로 나뉘며, Anthropic는 이를 통해 지연과 비용을 관리한다고 설명한다.
권한 경계 구조도 구체적으로 공개했다. 안전한 read-only 도구와 일부 좁게 설정된 allow rule은 즉시 통과하고, 프로젝트 디렉터리 내부의 일반적인 파일 수정은 classifier 지연 없이 허용된다. 반면 shell command, web fetch, 외부 integration, subagent handoff, repo 밖 파일시스템 접근 같은 고위험 동작은 최종 승인 classifier로 보낸다. Anthropic는 manual mode에서 자주 쓰이던 광범위한 interpreter 허용 규칙은 auto mode로 이어지지 않는다고 밝히는데, 그런 규칙이야말로 안전 계층을 우회시킬 수 있기 때문이다.
Anthropic는 평가 수치도 함께 공개했다. 회사 설명에 따르면 전체 파이프라인 기준 실제 내부 트래픽에서 false-positive rate는 0.4%까지 내려간다. 실제 overeager action 소규모 세트에서는 17% false-negative rate, synthetic data exfiltration 태스크에서는 5.7% false-negative rate를 보고했다. 글은 auto mode가 --dangerously-skip-permissions보다 실질적으로 더 안전한 대안이 되도록 설계됐지만, 고위험 인프라에서 신중한 인간 검토를 대체하는 기능은 아니라고 분명히 말한다.
왜 중요한가
더 큰 신호는 에이전트 공급사들이 운영 안전성을 별도 정책 문서가 아니라 제품 기능 자체로 다루기 시작했다는 점이다. 분류기 기반 승인이 대부분의 일상적 행동을 흡수하면서 가장 위험한 행동만 차단할 수 있다면, 팀은 너무 시끄럽지 않은 방식으로 장시간 자율 코딩 세션을 운영할 수 있다.
동시에 Anthropic가 공개한 숫자는 이 기능의 성격을 분명히 보여준다. Auto mode는 보장 장치가 아니라 위험을 줄이는 절충안이다. 실무자에게는 이런 솔직함이 오히려 유용하다. 오늘 기준 어디까지 모델 기반 승인을 믿을 수 있고, 어디서부터 인간 검토가 여전히 필요한지를 명확히 해주기 때문이다.
Related Articles
Anthropic는 Claude Code와 public API 전반의 수백만 건 상호작용을 분석해, 실제 현장에서 AI agent에 얼마나 많은 autonomy가 부여되는지 측정한 연구를 공개했다. 가장 긴 Claude Code 세션은 3개월 사이 under 25 minutes에서 over 45 minutes로 늘었고, 숙련 사용자는 auto-approve를 더 많이 쓰지만 interrupt도 더 자주 하는 것으로 나타났다.
Show HN로 올라온 nah는 blanket allow-or-deny 대신 tool call의 실제 효과를 분류하는 PreToolUse hook를 제안했다. README는 path check, content inspection, optional LLM escalation을 강조했고, HN discussion은 sandboxing, command chain, policy engine이 정말 agentic tool을 통제할 수 있는지에 집중했다.
Anthropic가 2026년 2월 17일 Claude Sonnet 4.6을 공개했다. 1M token context beta, 동일한 가격대, 그리고 coding·computer use·long-context reasoning 전반의 성능 향상이 핵심이다.
Comments (0)
No comments yet. Be the first to comment!