OpenAI、GPT-5.3 Instant System Cardを公開 安全性評価とHealthBench結果を詳細開示
Original: GPT-5.3 Instant System Card View original →
公開内容の要点
OpenAIは2026年3月3日、GPT-5.3 Instant System Cardを公開し、Deployment Safety Hubで詳細評価を提示した。OpenAIによればGPT-5.3 InstantはGPT-5系の最新Instantモデルで、応答速度、web検索時の文脈化、会話上の不要な回り道の削減を狙った更新だ。一方で、安全性の包括的 mitigation frameworkはGPT-5.2 Instantと大きくは変えていないとしている。
今回のポイントは、製品説明だけでなく、運用上重要な安全指標とhealth領域の評価を同時に公開した点にある。
Disallowed content評価で見えた改善と回帰
Production Benchmarksではgpt-5.1-instant、gpt-5.2-instant、gpt-5.3-instantを比較している。改善例としてnonviolent illicit behaviorは0.656(5.1)→0.832(5.2)→0.921(5.3)へ上昇し、biologyは1.00を維持した。反面、5.2比でsexual contentは0.926から0.866へ、self-harmは0.923から0.895へ低下している。graphic violenceやviolent illicit behaviorでも低下が示されるが、OpenAIは一部について統計的有意性が低いと説明する。
OpenAIはオンライン実験でself-harmに関する望ましくない応答の増加は観測していないとし、sexual contentについてはChatGPTのsystem-level safeguardsで補完しつつ継続改善するとしている。
Dynamic multi-turn評価とHealthBench
文書ではmental health、emotional reliance、self-harmでdynamic multi-turn評価を導入した点が強調される。固定会話の最終回答だけでなく、会話の途中を含む全ターンでpolicy違反の有無を検証する設計で、実運用に近いストレステストとなる。
HealthBench結果は5.2比で小幅に低下した。HealthBenchは55.4%から54.1%、Hardは26.8%から25.9%、Consensusは95.8%から95.3%。平均出力長は2101 charsから2140 charsへ増えた。OpenAIは強みとして「情報不足時のcontext-seeking向上(+4.4%)」「不可避な不確実性下でのhedging向上(+4.0%)」を挙げ、弱みとして「referral前のcontext-seeking低下(-10.1%)」「地域医療文脈が関係する場合の精度低下(-5.5%)」を示した。
実務上の意味
この公開は、モデル更新を能力向上だけでなく安全指標の差分まで含めて評価する流れを強める。特に、体感品質の改善と特定カテゴリの安全回帰が同時に起こり得ることを明示した点は重要だ。導入側にとっては、バージョン更新を単純置換ではなく、healthやセンシティブ領域の再評価を伴う運用変更として扱う必要がある。
出典: OpenAI GPT-5.3 Instant System Card, OpenAI Deployment Safety Hub
Related Articles
OpenAIはChain-of-Thought controllabilityに関する新しいevaluation suiteとresearch paperを公開した。GPT-5.4 Thinkingはreasoningを隠す能力が低く、CoT monitoringが引き続き有効な safety signalになり得ると同社は説明している。
GitHubは2026年3月5日、GPT-5.4がGitHub Copilotで一般提供となり、順次展開中だと発表した。初期テストでは成功率の向上に加え、複雑でツール依存の作業における論理推論と実行力の改善を確認したとしている。
OpenAIは2026年3月5日にChatGPT for Excelを公開した。対象は有料ChatGPTユーザーで、表計算内の分析・数式生成に加え、金融データ連携を通じて規制産業の実務導入を狙う。
Comments (0)
No comments yet. Be the first to comment!