OpenAI、ChatGPTの暴力兆候検知を強化 即時BAN基準を前面へ
Original: Our commitment to community safety View original →
OpenAIが4月28日に公開した safety post の焦点は、ChatGPT moderation を1回の危険プロンプト検出から、長い会話全体のリスク判定へ広げた点にある。暴力の計画や実行に結びつく兆候を見つけた場合、BAN相当と判断すれば即時にアクセスを止める方針を明確にした。
今回の更新で重いのは、拒否応答そのものより執行の厚みだ。OpenAIによると、分類器、reasoning model、hash matching、blocklist、行動監視を組み合わせて危険信号を拾い、フラグが立ったケースは訓練を受けた担当者が文脈付きで確認する。つまり、その場の一問一答ではなく、複数の会話を通じて見える回避パターンまでアカウント単位で見る設計へ進んでいる。
エスカレーション基準もはっきりした。OpenAIは、BAN対象の違反が成立したと判断すれば、サービス利用を即座に停止することを目指すとしている。必要なら同一ユーザーの別アカウントも止め、新規作成も検知する。さらに、他者への危害が差し迫り、かつ信頼できると見なした場合には、法執行機関へ通知すると書いた。暴力に関する手順を段階的に引き出そうとする使い方は、数回の refusal で済まない可能性が高い。
重要なのは、この話が能力競争の外側で起きていることだ。最近の frontier AI 議論は model capability や cyber misuse、政府利用に寄りがちだった。今回の post は、危険な intent を現実の計画に変わる前にどう捕まえるかという運用面へ視線を戻している。ニュース理解、教育、予防のような正当な文脈は残しつつ、実行可能な暴力手順は止めるという線引きである。
もちろん摩擦も残る。OpenAIは、reviewer のアクセスは privacy と confidentiality の統制下にあり、ユーザーには appeal の手段もあると説明する。それでも、会話横断の検知が強まれば、曖昧なケースで platform 側の裁量は広がる。研究者や enterprise buyer にとっては、その変化自体がニュースだ。政策文言より、実際の執行権限が広くなったからだ。原文は こちら。
Related Articles
OpenAIはApril 8, 2026、AI-enabled child sexual exploitationに対応するための Child Safety Blueprint を公開した。この提案はlegal updates、provider reporting強化、safety-by-design measuresを一体で扱うpolicy frameworkだ。
OpenAIの4月21日のsystem cardは、ChatGPT Images 2.0のsafety tradeoffを具体的な数字で示した。Thinking modeではfinal blocking前のpolicy-violating image比率が6.7%で、より写実的なimage generation、provenance、biorisk対策が一つのdeployment課題になっている。
HNの関心はdemo reelではなく、密度の高いpromptをどこまで守れるかに向かった。ChatGPT Images 2.0はstyle幅やmultilingual textを前面に出したが、threadはprompt adherence、価格、synthetic media疲れへ広がった。
Comments (0)
No comments yet. Be the first to comment!