Skip to content

#agent-safety

RSS Feed
LLM X/Twitter Mar 26, 2026 2 min read

Anthropic는 2026년 3월 25일 Claude Code auto mode가 다수의 permission prompt를 분류기로 대체해, 모든 승인을 건너뛰는 방식보다 더 안전한 자율 실행 경로를 제공한다고 밝혔다. 엔지니어링 글은 이 기능이 prompt-injection probe와 2단계 transcript classifier를 결합하며, 전체 파이프라인 기준 실제 트래픽에서 0.4% false-positive rate를 기록했다고 설명한다.