OpenAI、GPT-5.3 Instant System Cardを公開 安全性評価とHealthBench結果を詳細開示
Original: GPT-5.3 Instant System Card View original →
公開内容の要点
OpenAIは2026年3月3日、GPT-5.3 Instant System Cardを公開し、Deployment Safety Hubで詳細評価を提示した。OpenAIによればGPT-5.3 InstantはGPT-5系の最新Instantモデルで、応答速度、web検索時の文脈化、会話上の不要な回り道の削減を狙った更新だ。一方で、安全性の包括的 mitigation frameworkはGPT-5.2 Instantと大きくは変えていないとしている。
今回のポイントは、製品説明だけでなく、運用上重要な安全指標とhealth領域の評価を同時に公開した点にある。
Disallowed content評価で見えた改善と回帰
Production Benchmarksではgpt-5.1-instant、gpt-5.2-instant、gpt-5.3-instantを比較している。改善例としてnonviolent illicit behaviorは0.656(5.1)→0.832(5.2)→0.921(5.3)へ上昇し、biologyは1.00を維持した。反面、5.2比でsexual contentは0.926から0.866へ、self-harmは0.923から0.895へ低下している。graphic violenceやviolent illicit behaviorでも低下が示されるが、OpenAIは一部について統計的有意性が低いと説明する。
OpenAIはオンライン実験でself-harmに関する望ましくない応答の増加は観測していないとし、sexual contentについてはChatGPTのsystem-level safeguardsで補完しつつ継続改善するとしている。
Dynamic multi-turn評価とHealthBench
文書ではmental health、emotional reliance、self-harmでdynamic multi-turn評価を導入した点が強調される。固定会話の最終回答だけでなく、会話の途中を含む全ターンでpolicy違反の有無を検証する設計で、実運用に近いストレステストとなる。
HealthBench結果は5.2比で小幅に低下した。HealthBenchは55.4%から54.1%、Hardは26.8%から25.9%、Consensusは95.8%から95.3%。平均出力長は2101 charsから2140 charsへ増えた。OpenAIは強みとして「情報不足時のcontext-seeking向上(+4.4%)」「不可避な不確実性下でのhedging向上(+4.0%)」を挙げ、弱みとして「referral前のcontext-seeking低下(-10.1%)」「地域医療文脈が関係する場合の精度低下(-5.5%)」を示した。
実務上の意味
この公開は、モデル更新を能力向上だけでなく安全指標の差分まで含めて評価する流れを強める。特に、体感品質の改善と特定カテゴリの安全回帰が同時に起こり得ることを明示した点は重要だ。導入側にとっては、バージョン更新を単純置換ではなく、healthやセンシティブ領域の再評価を伴う運用変更として扱う必要がある。
出典: OpenAI GPT-5.3 Instant System Card, OpenAI Deployment Safety Hub
Related Articles
AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
OpenAIが前に出したのは単なる性能更新ではない。Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を示しつつ、GPT-5.4級のレイテンシーを保つとして、長い作業を任せるコーディングエージェントの基準を押し上げた。
Comments (0)
No comments yet. Be the first to comment!