트위터 사용자가 모스 부호로 인코딩된 프롬프트 인젝션을 이용해 Grok AI가 연결된 자동화 봇을 속여 약 2억 원 상당의 암호화폐를 자신의 지갑으로 전송하게 했다.
#ai-security
RSS FeedHN은 “AI cybersecurity is not proof of work”를 단순한 anti-hype 글로 읽지 않았다. 핵심 논쟁은 더 많은 GPU와 더 긴 sampling이 bugs를 찾는 충분조건인지, 아니면 model capability와 threat model이 병목인지였다.
HN이 달아오른 지점은 단순한 open source 찬반이 아니라, AI가 vulnerability discovery 비용을 낮춘 뒤 방어자가 무엇을 공개하고 무엇을 자동화해야 하느냐였다. Strix 글은 Cal.com의 closed-source 전환 논리를 계기로 “source를 숨겨도 attack surface는 사라지지 않는다”는 반론을 냈고, 댓글은 보안 리포트의 질, SaaS 사업 모델, security through obscurity의 현실적 효용까지 갈라졌다.
GitHub는 2026년 4월 1일 Agentic Workflows가 isolation, constrained outputs, comprehensive logging을 핵심 원칙으로 설계됐다고 밝혔다. 함께 링크한 GitHub 블로그는 GitHub Actions 안에서 coding agent를 더 안전하게 실행하기 위해 전용 container, firewalled egress, safe outputs, trust boundary logging을 사용한다고 설명한다.
Perplexity는 2026년 3월 31일 leading-edge AI system의 security, trustworthiness, practical defense를 연구하는 Secure Intelligence Institute를 출범한다고 밝혔다. Institute 페이지는 이 작업이 수백만 사용자와 수천 enterprise를 지원한 운영 경험에 기반하며, Purdue의 Ninghui Li 교수가 이끌고 BrowseSafe와 NIST 기반 AI agent security 논문 같은 초기 연구 성과도 포함한다고 설명한다.
OpenAI는 March 9, 2026 Promptfoo 인수를 발표했다. 회사는 Promptfoo의 agent security testing과 evaluation 기술을 OpenAI Frontier에 통합해 prompt injection, jailbreak, data leak, tool misuse 같은 enterprise risk를 개발 단계부터 다루겠다고 밝혔다.
Cloudflare는 2026년 3월 11일 AI Security for Apps를 generally available로 전환했다고 발표했다. 동시에 AI endpoint discovery를 Free, Pro, Business 플랜까지 무료로 열고, custom topics detection과 IBM·Wiz 연동을 추가했다.
Hacker News에서는 CodeWall이 2026년 3월 9일 공개한 McKinsey Lilli 침해 보고서가 빠르게 확산됐다. 보고서는 autonomous agent가 unauthenticated endpoint, SQL injection, prompt-layer 접근을 연쇄적으로 이용해 production DB까지 도달했다고 주장한다.
Microsoft는 2026년 2월 13일 Security Dashboard for AI의 퍼블릭 프리뷰를 발표했다. 이 대시보드는 Defender, Entra, Purview의 신호를 통합해 AI 앱·에이전트·모델 전반의 위험을 한 화면에서 관리하도록 설계됐다.
Anthropic는 Claude를 겨냥한 증류 공격이 고도화되고 있다고 밝히며 업계·정책 공조를 촉구했다. 연결된 공식 글에서는 대규모 악용 패턴과 대응 수단을 구체적으로 제시했다.
r/artificial에서 주목받은 보안 연구는 zero-width/Unicode Tags를 이용한 숨은 지시가 도구 사용형 LLM 에이전트에 미치는 영향을 분석했다. 공개 요약은 5개 모델, 8,308개 출력 평가를 제시한다.
앤트로픽이 중국 AI 기업들이 2만 4,000개 이상의 허위 계정으로 Claude에서 1,600만 건의 훈련 데이터를 무단 추출했다고 고발했습니다.