AI Reddit Apr 16, 2026 1 min read
이 글이 먹힌 이유는 agent builder들이 이미 겪고 있는 감각을 정확히 찔렀기 때문이다. model이 API를 호출하고 file을 바꾸고 script를 실행하고 MCP tool까지 건드리는 순간, 문제는 출력 품질이 아니라 실제 실행을 누가 어디서 막느냐가 된다.
이 글이 먹힌 이유는 agent builder들이 이미 겪고 있는 감각을 정확히 찔렀기 때문이다. model이 API를 호출하고 file을 바꾸고 script를 실행하고 MCP tool까지 건드리는 순간, 문제는 출력 품질이 아니라 실제 실행을 누가 어디서 막느냐가 된다.
Anthropic는 2026년 3월 25일 Claude Code auto mode가 다수의 permission prompt를 분류기로 대체해, 모든 승인을 건너뛰는 방식보다 더 안전한 자율 실행 경로를 제공한다고 밝혔다. 엔지니어링 글은 이 기능이 prompt-injection probe와 2단계 transcript classifier를 결합하며, 전체 파이프라인 기준 실제 트래픽에서 0.4% false-positive rate를 기록했다고 설명한다.
Show HN로 올라온 nah는 blanket allow-or-deny 대신 tool call의 실제 효과를 분류하는 PreToolUse hook를 제안했다. README는 path check, content inspection, optional LLM escalation을 강조했고, HN discussion은 sandboxing, command chain, policy engine이 정말 agentic tool을 통제할 수 있는지에 집중했다.