Reddit의 논점은 공포보다 검증 가능성에 있었다. 마이크·스피커·압축을 통과해 명령이 얼마나 안정적으로 먹히는지가 핵심이다.
#prompt-injection
RSS Feed트위터 사용자가 모스 부호로 인코딩된 프롬프트 인젝션을 이용해 Grok AI가 연결된 자동화 봇을 속여 약 2억 원 상당의 암호화폐를 자신의 지갑으로 전송하게 했다.
Cloudflare는 2026년 4월 11일 X에서 AI app 보안이 더 이상 rate limiting만으로 끝나지 않는다고 강조했다. 연결된 자료를 보면 회사는 LLM endpoint discovery, prompt-level detection, WAF mitigation을 edge 보안의 기본 흐름으로 묶으려 한다.
Anthropic는 2026년 3월 25일 Claude Code auto mode가 다수의 permission prompt를 분류기로 대체해, 모든 승인을 건너뛰는 방식보다 더 안전한 자율 실행 경로를 제공한다고 밝혔다. 엔지니어링 글은 이 기능이 prompt-injection probe와 2단계 transcript classifier를 결합하며, 전체 파이프라인 기준 실제 트래픽에서 0.4% false-positive rate를 기록했다고 설명한다.
OpenAI가 2026년 2월 13일 ChatGPT용 Lockdown Mode와 Elevated Risk labels를 공개했다. web와 connected app을 쓰는 AI product에서 prompt injection 위험이 커지는 만큼, 고위험 사용자를 위한 강한 제어와 명확한 위험 표시를 추가한 조치다.
OpenAI는 2026년 3월 10일 IH-Challenge를 공개하며 frontier LLM의 instruction hierarchy 동작을 개선하면 safety steerability와 prompt injection 저항성을 함께 높일 수 있다고 밝혔다. 회사는 추가 연구를 위해 데이터셋도 Hugging Face에 공개했다.
OpenAI는 2026년 3월 11일 AI agent가 읽는 이메일, 웹페이지, 캘린더 초대 같은 untrusted content가 핵심 보안 경계라고 설명하는 새 가이드를 공개했다. 회사는 안전한 agent가 data와 instruction을 분리하고, least privilege를 적용하며, 중요한 action 전에는 monitoring과 user confirmation을 넣어야 한다고 밝혔다.
Hacker News에서 높은 관심을 받은 Cline 공급망 사고를 정리한다. GitHub 이슈 제목의 prompt injection이 CI 워크플로우, 캐시 오염, 토큰 탈취, 악성 배포로 이어진 경로와 재발 방지 포인트를 다룬다.
r/artificial에서 주목받은 보안 연구는 zero-width/Unicode Tags를 이용한 숨은 지시가 도구 사용형 LLM 에이전트에 미치는 영향을 분석했다. 공개 요약은 5개 모델, 8,308개 출력 평가를 제시한다.
r/MachineLearning의 토론 글이 OpenClaw 생태계에서 인터넷 노출 인스턴스와 악성 스킬 비율을 제기하며, 에이전트 시대의 공급망 보안 모델을 둘러싼 논의를 촉발했다.
r/MachineLearning의 고득점 토론(점수 390, 댓글 52)을 바탕으로, ICML 리뷰 정책과 PDF 내 숨은 텍스트 의혹이 왜 심사 신뢰성 이슈로 번졌는지 정리했다.
개인정보 보호를 위해 셀프 호스팅으로 전환했지만, prompt injection 공격에 시스템 프롬프트가 노출되는 심각한 보안 취약점을 발견한 개발자의 경험담이 커뮤니티에서 큰 공감을 얻었다.