GPT-5.5始動、Terminal-Bench 82.7%でCodexの長時間作業が前進

Original: Introducing GPT-5.5. A new class of intelligence for real work and powering agents, built to understand complex goals, use tools, check its work, and carry more tasks through to completion. It marks a new way of getting computer work done. Now available in ChatGPT and Codex. View original →

Read in other languages: 한국어English
LLM Apr 25, 2026 By Insights AI 1 min read Source

OpenAIは4月23日の 元ポスト で、GPT-5.5を実務向けの新しい知能クラスとして位置づけた。単なる会話モデルの更新ではない。複雑な目標を抱えたまま道具を使い、自分の作業を点検し、長いタスクを最後まで進めるモデルだという打ち出しだ。投入先もChatGPTとCodexで、より難しい課題向けにGPT-5.5 Proも並べた。

製品ページでは数値が示されている。OpenAIによれば、GPT-5.5はTerminal-Bench 2.0で82.7%を記録し、GPT-5.4の75.1%を上回った。長期的なコーディング評価であるExpert-SWEでも73.1%に達している。さらにCodexでは、実運用でのトークン当たりレイテンシはGPT-5.4級を保ちつつ、必要トークン数は減るという。重要なのはこの組み合わせで、エージェントが再試行や待ち時間に足を取られず、より長い作業を任せられることにある。

アカウントの役割分担もはっきりしている。旗艦リリースはOpenAI本体が出し、開発者向けの補足は@OpenAIDevsが担う。今回もその形だった。メインポストが方向性を示し、開発者向け投稿がAPI反映とトークン効率を補強した。製品ページではCodexで400Kコンテキストが使えるとも記されており、この投入が短いQ&Aよりも継続的なコンピュータ作業を意識していることが分かる。

次に見るべきなのは外部検証だ。社内ベンチマークの差が、実際のリポジトリ、ブラウザ操作、社内リサーチ業務でも再現されるのか。もう一つは価格性能比である。もしレイテンシを維持したままトークン消費を下げられるなら、企業がエージェントに渡す仕事の境界線は動く。逆に大規模運用で効率が崩れるなら、今回のリリースの意味はかなり小さくなる。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.