GPT-5.5始動、Terminal-Bench 82.7%でCodexの長時間作業が前進
Original: Introducing GPT-5.5. A new class of intelligence for real work and powering agents, built to understand complex goals, use tools, check its work, and carry more tasks through to completion. It marks a new way of getting computer work done. Now available in ChatGPT and Codex. View original →
OpenAIは4月23日の 元ポスト で、GPT-5.5を実務向けの新しい知能クラスとして位置づけた。単なる会話モデルの更新ではない。複雑な目標を抱えたまま道具を使い、自分の作業を点検し、長いタスクを最後まで進めるモデルだという打ち出しだ。投入先もChatGPTとCodexで、より難しい課題向けにGPT-5.5 Proも並べた。
製品ページでは数値が示されている。OpenAIによれば、GPT-5.5はTerminal-Bench 2.0で82.7%を記録し、GPT-5.4の75.1%を上回った。長期的なコーディング評価であるExpert-SWEでも73.1%に達している。さらにCodexでは、実運用でのトークン当たりレイテンシはGPT-5.4級を保ちつつ、必要トークン数は減るという。重要なのはこの組み合わせで、エージェントが再試行や待ち時間に足を取られず、より長い作業を任せられることにある。
アカウントの役割分担もはっきりしている。旗艦リリースはOpenAI本体が出し、開発者向けの補足は@OpenAIDevsが担う。今回もその形だった。メインポストが方向性を示し、開発者向け投稿がAPI反映とトークン効率を補強した。製品ページではCodexで400Kコンテキストが使えるとも記されており、この投入が短いQ&Aよりも継続的なコンピュータ作業を意識していることが分かる。
次に見るべきなのは外部検証だ。社内ベンチマークの差が、実際のリポジトリ、ブラウザ操作、社内リサーチ業務でも再現されるのか。もう一つは価格性能比である。もしレイテンシを維持したままトークン消費を下げられるなら、企業がエージェントに渡す仕事の境界線は動く。逆に大規模運用で効率が崩れるなら、今回のリリースの意味はかなり小さくなる。
Related Articles
OpenAIが前に出したのは単なる性能更新ではない。Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を示しつつ、GPT-5.4級のレイテンシーを保つとして、長い作業を任せるコーディングエージェントの基準を押し上げた。
OpenAIDevsは2026年3月16日、Codexでsubagentsが利用可能になったと発表した。main contextを軽く保ちながらspecialized agentへ仕事を並列分散し、各threadを個別にsteerできるようにする更新で、公式ドキュメントにはPR reviewやCSV batch fan-outの運用例もすでに載っている。
なぜ重要か。最先端のコーディングモデルでは公開ベンチマークだけでは体感差が見えにくくなっているからだ。CursorはGPT-5.5が自社評価のCursorBenchで72.8%の首位に立ち、5月2日まで価格を50%下げると書いた。