OpenAI、Safety Bug Bounty公開 AI abuse・agentic riskの報告対象を拡大

March 25, 2026にOpenAIはSafety Bug Bounty programを立ち上げ、同社製品におけるAI abuseとsafety riskを外部研究者から受け付けると発表した。今回のprogramは既存のSecurity Bug Bountyを置き換えるものではなく、その補完を目的としている。OpenAIは、従来型のsecurity vulnerabilityには当てはまらなくても、実際のmisuseやtangible harmにつながる問題を正式な報告対象にする必要があると説明している。

中心となるのはagentic riskだ。OpenAIはBrowser、ChatGPT Agent、同種のagentic productを例に挙げ、third-party prompt injectionやdata exfiltrationを明示的にscopeへ入れた。攻撃者のテキストが被害者のagentを安定して乗っ取り、harmful actionを実行させたり、sensitive informationを漏えいさせたりするケースが対象で、一部の報告ではharmful behaviorが少なくとも50%再現されることが求められる。OpenAIのweb site上で大規模にdisallowed actionを行う事例や、material harmに結びつくその他のagent behaviorも検討される。

加えて、OpenAI proprietary informationとaccount/platform integrityも対象だ。reasoningに関するproprietary informationの露出、anti-automation controlの回避、account trust signalの操作、restriction・suspension・banの回避などが含まれる。一方で一般的なjailbreakは原則としてout of scopeであり、明確なsafety impactのないcontent-policy bypassは報奨対象にならない。通常のauthorization問題は従来どおりSecurity Bug Bountyへ送るよう整理されている。

この整理は、AI productのfailure modeが変わってきたことを示している。tool use、browser access、multi-step actionを伴うsystemでは、危険は単なるmodel outputの逸脱にとどまらない。prompt injectionによる行動乗っ取り、sensitive contextの流出、connected system上での不適切なactionが現実的な運用課題になっている。OpenAIはBugcrowd経由の正式チャネルを作り、Safety teamとSecurity teamで報告を振り分ける運用を示した。

developerやenterpriseにとって重要なのは、AIのbug bountyがsecurityだけでなくagent behaviorとsystem interactionまで対象を広げ始めた点だ。MCP integrationやtool-calling workflowを組み込む企業は、jailbreak対策だけでなく、prompt injection、action control、context leakageを独立したthreat modelとして扱う必要がある。今回の発表は、その方向への基準作りとして見ることができる。

OpenAI、Safety Bug Bounty公開 AI abuse・agentic riskの報告対象を拡大

Related Articles

OpenAI、AI abuse と agentic risk を対象に公開 Safety Bug Bounty を開始

OpenAI、GPT-5.4-Cyberを検証済み防御チームに広げる

OpenAI、enterprise AIは実験段階を越えたと説明

Comments (0)

Leave a Comment

Related Articles

OpenAI、AI abuse と agentic risk を対象に公開 Safety Bug Bounty を開始
AI Apr 12, 2026 1 min read

OpenAI、GPT-5.4-Cyberを検証済み防御チームに広げる
AI sources.official Apr 17, 2026 1 min read

OpenAI、enterprise AIは実験段階を越えたと説明
AI Apr 13, 2026 1 min read