OpenAI、ChatGPTの暴力兆候検知を強化　即時BAN基準を前面へ

OpenAIが4月28日に公開した safety post の焦点は、ChatGPT moderation を1回の危険プロンプト検出から、長い会話全体のリスク判定へ広げた点にある。暴力の計画や実行に結びつく兆候を見つけた場合、BAN相当と判断すれば即時にアクセスを止める方針を明確にした。

今回の更新で重いのは、拒否応答そのものより執行の厚みだ。OpenAIによると、分類器、reasoning model、hash matching、blocklist、行動監視を組み合わせて危険信号を拾い、フラグが立ったケースは訓練を受けた担当者が文脈付きで確認する。つまり、その場の一問一答ではなく、複数の会話を通じて見える回避パターンまでアカウント単位で見る設計へ進んでいる。

エスカレーション基準もはっきりした。OpenAIは、BAN対象の違反が成立したと判断すれば、サービス利用を即座に停止することを目指すとしている。必要なら同一ユーザーの別アカウントも止め、新規作成も検知する。さらに、他者への危害が差し迫り、かつ信頼できると見なした場合には、法執行機関へ通知すると書いた。暴力に関する手順を段階的に引き出そうとする使い方は、数回の refusal で済まない可能性が高い。

重要なのは、この話が能力競争の外側で起きていることだ。最近の frontier AI 議論は model capability や cyber misuse、政府利用に寄りがちだった。今回の post は、危険な intent を現実の計画に変わる前にどう捕まえるかという運用面へ視線を戻している。ニュース理解、教育、予防のような正当な文脈は残しつつ、実行可能な暴力手順は止めるという線引きである。

もちろん摩擦も残る。OpenAIは、reviewer のアクセスは privacy と confidentiality の統制下にあり、ユーザーには appeal の手段もあると説明する。それでも、会話横断の検知が強まれば、曖昧なケースで platform 側の裁量は広がる。研究者や enterprise buyer にとっては、その変化自体がニュースだ。政策文言より、実際の執行権限が広くなったからだ。原文はこちら。

OpenAI、ChatGPTの暴力兆候検知を強化　即時BAN基準を前面へ

Related Articles

OpenAI、AI-enabled child exploitation対策の Child Safety Blueprint を公開

OpenAI Images 2.0 system card、deepfakeリスクを数値化

ChatGPT Images 2.0でHNが見た焦点は、galleryより難問prompt

Comments (0)

Leave a Comment

Related Articles

OpenAI、AI-enabled child exploitation対策の Child Safety Blueprint を公開
AI Apr 13, 2026 1 min read

OpenAI Images 2.0 system card、deepfakeリスクを数値化
AI Apr 22, 2026 1 min read

ChatGPT Images 2.0でHNが見た焦点は、galleryより難問prompt
AI Hacker News Apr 22, 2026 1 min read