#prompt-injection

Cloudflare는 2026년 4월 11일 X에서 AI app 보안이 더 이상 rate limiting만으로 끝나지 않는다고 강조했다. 연결된 자료를 보면 회사는 LLM endpoint discovery, prompt-level detection, WAF mitigation을 edge 보안의 기본 흐름으로 묶으려 한다.

#cloudflare #llm-security #prompt-injection

LLM X/Twitter Mar 26, 2026 2 min read

Anthropic, Claude Code auto mode를 분류기 기반 에이전트 자율성 중간지대로 설명

Anthropic는 2026년 3월 25일 Claude Code auto mode가 다수의 permission prompt를 분류기로 대체해, 모든 승인을 건너뛰는 방식보다 더 안전한 자율 실행 경로를 제공한다고 밝혔다. 엔지니어링 글은 이 기능이 prompt-injection probe와 2단계 transcript classifier를 결합하며, 전체 파이프라인 기준 실제 트래픽에서 0.4% false-positive rate를 기록했다고 설명한다.

#anthropic #claude-code #agent-safety

AI Mar 23, 2026 1 min read

OpenAI, ChatGPT에 Lockdown Mode 도입… prompt injection 대응과 Elevated Risk 표준화

OpenAI가 2026년 2월 13일 ChatGPT용 Lockdown Mode와 Elevated Risk labels를 공개했다. web와 connected app을 쓰는 AI product에서 prompt injection 위험이 커지는 만큼, 고위험 사용자를 위한 강한 제어와 명확한 위험 표시를 추가한 조치다.

#openai #chatgpt #security

LLM Mar 16, 2026 2 min read

OpenAI, instruction hierarchy와 prompt injection 저항성을 강화하는 IH-Challenge 공개

OpenAI는 2026년 3월 10일 IH-Challenge를 공개하며 frontier LLM의 instruction hierarchy 동작을 개선하면 safety steerability와 prompt injection 저항성을 함께 높일 수 있다고 밝혔다. 회사는 추가 연구를 위해 데이터셋도 Hugging Face에 공개했다.

#openai #alignment #prompt-injection

LLM Mar 15, 2026 1 min read

OpenAI, AI agent를 prompt injection에 강하게 만드는 설계 원칙 공개

OpenAI는 2026년 3월 11일 AI agent가 읽는 이메일, 웹페이지, 캘린더 초대 같은 untrusted content가 핵심 보안 경계라고 설명하는 새 가이드를 공개했다. 회사는 안전한 agent가 data와 instruction을 분리하고, least privilege를 적용하며, 중요한 action 전에는 monitoring과 user confirmation을 넣어야 한다고 밝혔다.

#openai #agents #security

AI Hacker News Mar 6, 2026 1 min read

HN 화제: AI 이슈 트리아지가 공급망 침해로 이어진 Clinejection 사례

Hacker News에서 높은 관심을 받은 Cline 공급망 사고를 정리한다. GitHub 이슈 제목의 prompt injection이 CI 워크플로우, 캐시 오염, 토큰 탈취, 악성 배포로 이어진 경로와 재발 방지 포인트를 다룬다.

#ai-agents #supply-chain-security #github-actions

LLM Reddit Feb 28, 2026 1 min read

Reddit 이슈: 보이지 않는 Unicode 문자가 AI 에이전트 지시를 바꿀 수 있다는 “Reverse CAPTCHA” 분석

r/artificial에서 주목받은 보안 연구는 zero-width/Unicode Tags를 이용한 숨은 지시가 도구 사용형 LLM 에이전트에 미치는 영향을 분석했다. 공개 요약은 5개 모델, 8,308개 출력 평가를 제시한다.

#ai-security #prompt-injection #unicode