Xユーザーがモールス符号でエンコードしたプロンプトインジェクションを使い、Grokに接続されたBankrbotに30億DRBトークン(約20万ドル相当)を攻撃者のウォレットへ送金させることに成功した。
#ai-security
RSS FeedHNは“AI cybersecurity is not proof of work”を単なる反AI論として読まなかった。争点は、GPUとsamplingを増やせばbugsを見つけられるのか、それともmodel capabilityとthreat modelが本当の制約なのかだった。
HNが反応したのは、open sourceかclosed sourceかという単純な旗色ではなく、AIがvulnerability discoveryのコストを下げた後に守る側が何を公開し、何を自動化するのかという問題だった。Strixの記事は「sourceを隠してもattack surfaceは消えない」と論じ、コメント欄はAI由来の報告ノイズ、SaaSの採算、security through obscurityの効き目まで広がった。
Anthropicは2026年2月23日、DeepSeek、Moonshot AI、MiniMaxがClaudeに対して大規模なdistillation attackを行ったとXで主張した。model output extraction を競争上の問題だけでなく、security と platform integrity の問題として扱った点が重要だ。
GitHubは2026年4月1日、Agentic Workflowsが isolation、constrained outputs、comprehensive logging を中核原則として設計されていると説明した。リンク先のGitHubブログは、GitHub Actions上で coding agent をより安全に動かすため、専用container、firewalled egress、safe outputs、trust boundary logging を採用していると述べている。
Perplexityは2026年3月31日、leading-edge AI systemのsecurity、trustworthiness、practical defenseを研究するSecure Intelligence Instituteを立ち上げると発表した。Instituteページは、数百万ユーザーと数千enterpriseを支える運用経験を基盤に、PurdueのNinghui Li教授が率い、BrowseSafeやNIST関連のAI agent security論文を初期成果として示している。
OpenAIはMarch 9, 2026にPromptfoo買収計画を発表した。Promptfooのsecurity testingとevaluation技術をOpenAI Frontierへ統合し、prompt injection、jailbreak、data leak、tool misuseなどのenterprise riskを開発段階から扱えるようにする方針だ。
Cloudflareは2026年3月11日、AI Security for Appsをgenerally availableにしたと発表した。同時にAI endpoint discoveryをFree、Pro、Businessプランでも無料化し、custom topics detectionとIBM・Wiz連携を追加した。
Hacker Newsでは、CodeWallが2026年3月9日に公開したMcKinsey Lilli侵害報告が広く共有された。報告はautonomous agentがunauthenticated endpoint、SQL injection、prompt-layer accessを連鎖させてproduction DBへ到達したと主張している。
Microsoftは2026年2月13日、Security Dashboard for AIのパブリックプレビューを開始した。Defender、Entra、Purviewの信号を統合し、AI app、agent、model、MCP serverにまたがるリスクを一元管理できるようにする。
AnthropicはClaudeを狙うdistillation攻撃の高度化を警告し、業界と政策当局の連携対応を求めた。関連する公式記事では、攻撃規模や検知・防御方針が具体的に示されている。
r/artificialで共有されたセキュリティ研究は、zero-width文字とUnicode Tagsによる不可視指示がツール利用型LLMエージェントへ与える影響を検証した。公開概要は5モデル・8,308出力の評価を示している。