OpenAIがGPT-5.4を公開、ChatGPT/API/CodexでTool use性能を強化

発表の要点

OpenAIは2026年3月5日付の Introducing GPT-5.4 で、GPT-5.4をChatGPT（GPT-5.4 Thinking）、API、Codexへ同時展開した。加えて、より高難度タスク向けにGPT-5.4 Proも公開した。今回の軸は、reasoning、coding、tool calling、長時間実行を1つのモデル系列で実運用レベルに引き上げることにある。

Hacker Newsの投稿はクロール時点で816ポイント、658コメントに達し、開発者コミュニティの関心が高いことを示した。議論の中心は「ベンチマークの絶対値」よりも「実際の業務フローをどれだけ安定して完了できるか」に移っている。

公開された主要指標

OpenAI公表値では、GPT-5.4はGPT-5.2比でGDPval 83.0%（70.9%）、SWE-Bench Pro 57.7%（55.6%）、OSWorld-Verified 75.0%（47.3%）、Toolathlon 54.6%（46.3%）、BrowseComp 82.7%（65.8%）を示した。GPT-5.4 ProはBrowseComp 89.3%とされる。さらに、事実誤り報告プロンプト群では、個別claimのfalse率を33%、応答全体の誤り含有率を18%下げたと説明している。

これらはベンダー自己評価だが、OpenAIの開発優先順位を読む材料になる。重点は、知識業務の成果物品質、agent動作の一貫性、web検索を含む統合回答の精度だ。

Computer useとコスト構造

技術面で重要なのは、general-purposeモデルでnative computer-useを前面化した点である。OpenAIはCodex/APIで最大1M-token contextを扱えるとし、tool searchで必要時にtool定義を取得する方式を導入した。公開例では、MCP Atlasタスクで同精度のままtoken使用量を47%削減できたとしている。

価格はGPT-5.4が入力$2.50/M tokens、cached input $0.25/M、出力$15/M。GPT-5.4 Proは入力$30/M、出力$180/Mと案内された。実運用では単価比較だけでなく、token消費削減と再試行削減が総コストにどう効くかが評価軸になる。

出典: OpenAI release, Hacker News thread.

OpenAIがGPT-5.4を公開、ChatGPT/API/CodexでTool use性能を強化

発表の要点

公開された主要指標

Computer useとコスト構造

Related Articles

GPT-5.5始動、Terminal-Bench 82.7%でCodexの長時間作業が前進

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料

Qwen3.6-27B、397B級前世代をcoding指標で上回りApache 2.0 open weightで公開

Comments (0)

Leave a Comment

Related Articles

GPT-5.5始動、Terminal-Bench 82.7%でCodexの長時間作業が前進
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料
なぜ重要か。最先端のコーディングモデルでは公開ベンチマークだけでは体感差が見えにくくなっているからだ。CursorはGPT-5.5が自社評価のCursorBenchで72.8%の首位に立ち、5月2日まで価格を50%下げると書いた。

Qwen3.6-27B、397B級前世代をcoding指標で上回りApache 2.0 open weightで公開