OpenAI、Safety Bug Bounty公開 AI abuse・agentic riskの報告対象を拡大
Original: Introducing the OpenAI Safety Bug Bounty program View original →
March 25, 2026にOpenAIはSafety Bug Bounty programを立ち上げ、同社製品におけるAI abuseとsafety riskを外部研究者から受け付けると発表した。今回のprogramは既存のSecurity Bug Bountyを置き換えるものではなく、その補完を目的としている。OpenAIは、従来型のsecurity vulnerabilityには当てはまらなくても、実際のmisuseやtangible harmにつながる問題を正式な報告対象にする必要があると説明している。
中心となるのはagentic riskだ。OpenAIはBrowser、ChatGPT Agent、同種のagentic productを例に挙げ、third-party prompt injectionやdata exfiltrationを明示的にscopeへ入れた。攻撃者のテキストが被害者のagentを安定して乗っ取り、harmful actionを実行させたり、sensitive informationを漏えいさせたりするケースが対象で、一部の報告ではharmful behaviorが少なくとも50%再現されることが求められる。OpenAIのweb site上で大規模にdisallowed actionを行う事例や、material harmに結びつくその他のagent behaviorも検討される。
加えて、OpenAI proprietary informationとaccount/platform integrityも対象だ。reasoningに関するproprietary informationの露出、anti-automation controlの回避、account trust signalの操作、restriction・suspension・banの回避などが含まれる。一方で一般的なjailbreakは原則としてout of scopeであり、明確なsafety impactのないcontent-policy bypassは報奨対象にならない。通常のauthorization問題は従来どおりSecurity Bug Bountyへ送るよう整理されている。
この整理は、AI productのfailure modeが変わってきたことを示している。tool use、browser access、multi-step actionを伴うsystemでは、危険は単なるmodel outputの逸脱にとどまらない。prompt injectionによる行動乗っ取り、sensitive contextの流出、connected system上での不適切なactionが現実的な運用課題になっている。OpenAIはBugcrowd経由の正式チャネルを作り、Safety teamとSecurity teamで報告を振り分ける運用を示した。
developerやenterpriseにとって重要なのは、AIのbug bountyがsecurityだけでなくagent behaviorとsystem interactionまで対象を広げ始めた点だ。MCP integrationやtool-calling workflowを組み込む企業は、jailbreak対策だけでなく、prompt injection、action control、context leakageを独立したthreat modelとして扱う必要がある。今回の発表は、その方向への基準作りとして見ることができる。
Related Articles
OpenAIは enterprise 内で AI coworkers を pilot から production へ進めるための Frontier Alliances を発表した。BCG、McKinsey、Accenture、Capgemini が strategy、integration、change management を担う。
OpenAIはFebruary 27, 2026、$730B pre-money valuationで$110Bの新規投資を確保したと発表した。発表にはAmazonとのstrategic partnershipとNVIDIA由来の5 GW compute計画も含まれ、資金調達とinfrastructure拡張を同時に進める構図が鮮明になった。
OpenAIが2026年2月13日にChatGPT向けのLockdown ModeとElevated Risk labelsを公開した。webやconnected appを使うAI productでprompt injectionリスクが高まるなか、高リスク利用者向けの強い制御と明確な注意表示を加えた形だ。
Comments (0)
No comments yet. Be the first to comment!