GPT-5.5始動、Terminal-Bench 82.7%でCodexの長時間作業が前進

OpenAIは4月23日の元ポストで、GPT-5.5を実務向けの新しい知能クラスとして位置づけた。単なる会話モデルの更新ではない。複雑な目標を抱えたまま道具を使い、自分の作業を点検し、長いタスクを最後まで進めるモデルだという打ち出しだ。投入先もChatGPTとCodexで、より難しい課題向けにGPT-5.5 Proも並べた。

製品ページでは数値が示されている。OpenAIによれば、GPT-5.5はTerminal-Bench 2.0で82.7%を記録し、GPT-5.4の75.1%を上回った。長期的なコーディング評価であるExpert-SWEでも73.1%に達している。さらにCodexでは、実運用でのトークン当たりレイテンシはGPT-5.4級を保ちつつ、必要トークン数は減るという。重要なのはこの組み合わせで、エージェントが再試行や待ち時間に足を取られず、より長い作業を任せられることにある。

アカウントの役割分担もはっきりしている。旗艦リリースはOpenAI本体が出し、開発者向けの補足は@OpenAIDevsが担う。今回もその形だった。メインポストが方向性を示し、開発者向け投稿がAPI反映とトークン効率を補強した。製品ページではCodexで400Kコンテキストが使えるとも記されており、この投入が短いQ&Aよりも継続的なコンピュータ作業を意識していることが分かる。

次に見るべきなのは外部検証だ。社内ベンチマークの差が、実際のリポジトリ、ブラウザ操作、社内リサーチ業務でも再現されるのか。もう一つは価格性能比である。もしレイテンシを維持したままトークン消費を下げられるなら、企業がエージェントに渡す仕事の境界線は動く。逆に大規模運用で効率が崩れるなら、今回のリリースの意味はかなり小さくなる。

GPT-5.5始動、Terminal-Bench 82.7%でCodexの長時間作業が前進

Related Articles

GPT-5.6、ChatGPT・Codex・API投入と80.0 coding agent指標

ChatGPT Voice、desktop版でCodexと複数agent操作へ拡張する音声操作の新段階

GPT-5.5、エージェント型コーディングを押し上げつつ遅延は据え置き

Related Articles

GPT-5.6、ChatGPT・Codex・API投入と80.0 coding agent指標
LLM X/Twitter Jul 10, 2026 1 min read

ChatGPT Voice、desktop版でCodexと複数agent操作へ拡張する音声操作の新段階

GPT-5.5、エージェント型コーディングを押し上げつつ遅延は据え置き
LLM Apr 25, 2026 1 min read