OpenAI、GPT-5.3 Instant System Cardを公開　安全性評価とHealthBench結果を詳細開示

公開内容の要点

OpenAIは2026年3月3日、GPT-5.3 Instant System Cardを公開し、Deployment Safety Hubで詳細評価を提示した。OpenAIによればGPT-5.3 InstantはGPT-5系の最新Instantモデルで、応答速度、web検索時の文脈化、会話上の不要な回り道の削減を狙った更新だ。一方で、安全性の包括的 mitigation frameworkはGPT-5.2 Instantと大きくは変えていないとしている。

今回のポイントは、製品説明だけでなく、運用上重要な安全指標とhealth領域の評価を同時に公開した点にある。

Disallowed content評価で見えた改善と回帰

Production Benchmarksではgpt-5.1-instant、gpt-5.2-instant、gpt-5.3-instantを比較している。改善例としてnonviolent illicit behaviorは0.656(5.1)→0.832(5.2)→0.921(5.3)へ上昇し、biologyは1.00を維持した。反面、5.2比でsexual contentは0.926から0.866へ、self-harmは0.923から0.895へ低下している。graphic violenceやviolent illicit behaviorでも低下が示されるが、OpenAIは一部について統計的有意性が低いと説明する。

OpenAIはオンライン実験でself-harmに関する望ましくない応答の増加は観測していないとし、sexual contentについてはChatGPTのsystem-level safeguardsで補完しつつ継続改善するとしている。

Dynamic multi-turn評価とHealthBench

文書ではmental health、emotional reliance、self-harmでdynamic multi-turn評価を導入した点が強調される。固定会話の最終回答だけでなく、会話の途中を含む全ターンでpolicy違反の有無を検証する設計で、実運用に近いストレステストとなる。

HealthBench結果は5.2比で小幅に低下した。HealthBenchは55.4%から54.1%、Hardは26.8%から25.9%、Consensusは95.8%から95.3%。平均出力長は2101 charsから2140 charsへ増えた。OpenAIは強みとして「情報不足時のcontext-seeking向上(+4.4%)」「不可避な不確実性下でのhedging向上(+4.0%)」を挙げ、弱みとして「referral前のcontext-seeking低下(-10.1%)」「地域医療文脈が関係する場合の精度低下(-5.5%)」を示した。

実務上の意味

この公開は、モデル更新を能力向上だけでなく安全指標の差分まで含めて評価する流れを強める。特に、体感品質の改善と特定カテゴリの安全回帰が同時に起こり得ることを明示した点は重要だ。導入側にとっては、バージョン更新を単純置換ではなく、healthやセンシティブ領域の再評価を伴う運用変更として扱う必要がある。

出典: OpenAI GPT-5.3 Instant System Card, OpenAI Deployment Safety Hub

OpenAI、GPT-5.3 Instant System Cardを公開　安全性評価とHealthBench結果を詳細開示

公開内容の要点

Disallowed content評価で見えた改善と回帰

Dynamic multi-turn評価とHealthBench

実務上の意味

Related Articles

Contrastive SDF、RL後のモデルが採点者を追う傾向を測定

ChatGPT Voice、desktop版でCodexと複数agent操作へ拡張する音声操作の新段階

OpenAI、内部coding agentのmisalignment監視手法を公開