#agent-safety

AI Reddit Apr 16, 2026 1 min read

Prompt guardrail만으로는 안 된다는 말, LocalLLaMA는 결국 실행 전 차단으로 모였다

이 글이 먹힌 이유는 agent builder들이 이미 겪고 있는 감각을 정확히 찔렀기 때문이다. model이 API를 호출하고 file을 바꾸고 script를 실행하고 MCP tool까지 건드리는 순간, 문제는 출력 품질이 아니라 실제 실행을 누가 어디서 막느냐가 된다.

#ai-agents #agent-safety #guardrails

LLM X/Twitter Mar 26, 2026 2 min read

Anthropic, Claude Code auto mode를 분류기 기반 에이전트 자율성 중간지대로 설명

Anthropic는 2026년 3월 25일 Claude Code auto mode가 다수의 permission prompt를 분류기로 대체해, 모든 승인을 건너뛰는 방식보다 더 안전한 자율 실행 경로를 제공한다고 밝혔다. 엔지니어링 글은 이 기능이 prompt-injection probe와 2단계 transcript classifier를 결합하며, 전체 파이프라인 기준 실제 트래픽에서 0.4% false-positive rate를 기록했다고 설명한다.

#anthropic #claude-code #agent-safety

LLM Hacker News Mar 12, 2026 2 min read

Hacker News가 Claude Code용 context-aware permission guard를 검토하다

Show HN로 올라온 nah는 blanket allow-or-deny 대신 tool call의 실제 효과를 분류하는 PreToolUse hook를 제안했다. README는 path check, content inspection, optional LLM escalation을 강조했고, HN discussion은 sandboxing, command chain, policy engine이 정말 agentic tool을 통제할 수 있는지에 집중했다.

#llm #agent-safety #claude-code