GPT-5.5始動、Terminal-Bench 82.7%でCodexの長時間作業が前進
Original: Introducing GPT-5.5. A new class of intelligence for real work and powering agents, built to understand complex goals, use tools, check its work, and carry more tasks through to completion. It marks a new way of getting computer work done. Now available in ChatGPT and Codex. View original →
OpenAIは4月23日の 元ポスト で、GPT-5.5を実務向けの新しい知能クラスとして位置づけた。単なる会話モデルの更新ではない。複雑な目標を抱えたまま道具を使い、自分の作業を点検し、長いタスクを最後まで進めるモデルだという打ち出しだ。投入先もChatGPTとCodexで、より難しい課題向けにGPT-5.5 Proも並べた。
製品ページでは数値が示されている。OpenAIによれば、GPT-5.5はTerminal-Bench 2.0で82.7%を記録し、GPT-5.4の75.1%を上回った。長期的なコーディング評価であるExpert-SWEでも73.1%に達している。さらにCodexでは、実運用でのトークン当たりレイテンシはGPT-5.4級を保ちつつ、必要トークン数は減るという。重要なのはこの組み合わせで、エージェントが再試行や待ち時間に足を取られず、より長い作業を任せられることにある。
アカウントの役割分担もはっきりしている。旗艦リリースはOpenAI本体が出し、開発者向けの補足は@OpenAIDevsが担う。今回もその形だった。メインポストが方向性を示し、開発者向け投稿がAPI反映とトークン効率を補強した。製品ページではCodexで400Kコンテキストが使えるとも記されており、この投入が短いQ&Aよりも継続的なコンピュータ作業を意識していることが分かる。
次に見るべきなのは外部検証だ。社内ベンチマークの差が、実際のリポジトリ、ブラウザ操作、社内リサーチ業務でも再現されるのか。もう一つは価格性能比である。もしレイテンシを維持したままトークン消費を下げられるなら、企業がエージェントに渡す仕事の境界線は動く。逆に大規模運用で効率が崩れるなら、今回のリリースの意味はかなり小さくなる。
Related Articles
OpenAIが前に出したのは単なる性能更新ではない。Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を示しつつ、GPT-5.4級のレイテンシーを保つとして、長い作業を任せるコーディングエージェントの基準を押し上げた。
OpenAIはCodexを週300万超のdevelopersが使っているとし、desktop appをcode editorの外へ広げた。UpdateにはmacOS background computer use、in-app browser、gpt-image-1.5 image generation、90超のplugins、PR review workflow、SSH devboxes alpha、automations、memory previewが含まれる。
重要なのは、GPT-5.5 launch直後に出た最初期のexternal benchmark readoutのひとつだという点だ。Artificial AnalysisはIntelligence Indexで3点差首位とした一方、指数実行コストは約20%高くなったと述べた。
Comments (0)
No comments yet. Be the first to comment!