Skip to content

#prompt-injection

RSS Feed
LLM X/Twitter Mar 26, 2026 2 min read

Anthropic는 2026년 3월 25일 Claude Code auto mode가 다수의 permission prompt를 분류기로 대체해, 모든 승인을 건너뛰는 방식보다 더 안전한 자율 실행 경로를 제공한다고 밝혔다. 엔지니어링 글은 이 기능이 prompt-injection probe와 2단계 transcript classifier를 결합하며, 전체 파이프라인 기준 실제 트래픽에서 0.4% false-positive rate를 기록했다고 설명한다.

LLM Mar 15, 2026 1 min read

OpenAI는 2026년 3월 11일 AI agent가 읽는 이메일, 웹페이지, 캘린더 초대 같은 untrusted content가 핵심 보안 경계라고 설명하는 새 가이드를 공개했다. 회사는 안전한 agent가 data와 instruction을 분리하고, least privilege를 적용하며, 중요한 action 전에는 monitoring과 user confirmation을 넣어야 한다고 밝혔다.