OpenAIがGPT-5.4を公開、ChatGPT/API/CodexでTool use性能を強化
Original: GPT-5.4 View original →
発表の要点
OpenAIは2026年3月5日付の Introducing GPT-5.4 で、GPT-5.4をChatGPT(GPT-5.4 Thinking)、API、Codexへ同時展開した。加えて、より高難度タスク向けにGPT-5.4 Proも公開した。今回の軸は、reasoning、coding、tool calling、長時間実行を1つのモデル系列で実運用レベルに引き上げることにある。
Hacker Newsの投稿はクロール時点で816ポイント、658コメントに達し、開発者コミュニティの関心が高いことを示した。議論の中心は「ベンチマークの絶対値」よりも「実際の業務フローをどれだけ安定して完了できるか」に移っている。
公開された主要指標
OpenAI公表値では、GPT-5.4はGPT-5.2比でGDPval 83.0%(70.9%)、SWE-Bench Pro 57.7%(55.6%)、OSWorld-Verified 75.0%(47.3%)、Toolathlon 54.6%(46.3%)、BrowseComp 82.7%(65.8%)を示した。GPT-5.4 ProはBrowseComp 89.3%とされる。さらに、事実誤り報告プロンプト群では、個別claimのfalse率を33%、応答全体の誤り含有率を18%下げたと説明している。
これらはベンダー自己評価だが、OpenAIの開発優先順位を読む材料になる。重点は、知識業務の成果物品質、agent動作の一貫性、web検索を含む統合回答の精度だ。
Computer useとコスト構造
技術面で重要なのは、general-purposeモデルでnative computer-useを前面化した点である。OpenAIはCodex/APIで最大1M-token contextを扱えるとし、tool searchで必要時にtool定義を取得する方式を導入した。公開例では、MCP Atlasタスクで同精度のままtoken使用量を47%削減できたとしている。
価格はGPT-5.4が入力$2.50/M tokens、cached input $0.25/M、出力$15/M。GPT-5.4 Proは入力$30/M、出力$180/Mと案内された。実運用では単価比較だけでなく、token消費削減と再試行削減が総コストにどう効くかが評価軸になる。
Related Articles
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
なぜ重要か。最先端のコーディングモデルでは公開ベンチマークだけでは体感差が見えにくくなっているからだ。CursorはGPT-5.5が自社評価のCursorBenchで72.8%の首位に立ち、5月2日まで価格を50%下げると書いた。
重要なのは、open-weight 27B dense modelがはるかに大きいcoding systemとagent taskで正面比較されていることだ。Qwenのmodel cardではSWE-bench VerifiedがQwen3.6-27Bで77.2、Qwen3.5-397B-A17Bで76.2、licenseはApache 2.0となっている。
Comments (0)
No comments yet. Be the first to comment!