GPT-5.5、エージェント型コーディングを押し上げつつ遅延は据え置き
Original: Introducing GPT-5.5 View original →
OpenAIがGPT-5.5で狙っているのは、ベンチマーク表の塗り替えだけではない。今回のモデルは、コード作成とデバッグ、ウェブ調査、データ分析、ドキュメントやスプレッドシート作成、ツールの行き来まで、ばらけた仕事をまとめて渡しても、途中で止まりにくく、最後まで運びやすいことを前面に出している。ここが重要だ。いまのコーディングエージェント市場はデモでは強いが、実案件に入ると曖昧な要件や長い文脈で失速する場面が少なくなかった。
数字もその方向を支えている。公開ページでOpenAIは、GPT-5.5がTerminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%、GDPvalで84.9%、OSWorld-Verifiedで78.7%を出したと説明する。しかも実運用の配信ではGPT-5.4と同等のper-tokenレイテンシーを保ちつつ、Codexの作業ではより少ないトークンで終えられるという。ここでの焦点は「少し賢い」ではなく、「同じ時間とコストでより多くの仕事を終わらせる」ことにある。
配布の広がりも速い。4月23日の時点で、OpenAIはGPT-5.5をChatGPTとCodexのPlus、Pro、Business、Enterpriseに順次展開すると案内した。GPT-5.5 ProはPro、Business、Enterpriseが先行対象だ。さらに同じページは4月24日に更新され、GPT-5.5とGPT-5.5 ProがAPIでも利用可能になったと明記された。これは単なるChatGPT機能追加では終わらない。外部の開発ツールや業務プロダクトがすぐ取り込める、れっきとしたプラットフォーム側の更新になった。
最初に圧力を受けるのは開発ツール市場だろう。OpenAIはGPT-5.5を自社で最も強いagentic codingモデルと位置づけ、初期ユーザーの例としてデバッグ、大規模リファクタ、ブランチ統合のような現実のエンジニア作業を並べている。もちろん先行ユーザーの声だけで結論は出ない。それでも今回の評価セットが示す方向は重い。端末上のワークフロー、GitHub issue解決、実際のコンピューター操作といった、エンジニアが本当に委任する仕事に近い評価が前面に出てきたからだ。
ただし条件もはっきりしている。OpenAIはGPT-5.5にこれまでで最も強い安全策を入れ、サイバーと生物分野の試験を広げ、約200のearly-accessパートナーからフィードバックを集めたと説明する。長く動けるモデルほど、安全側の負担も増える。結局の勝負は初日のスコアではない。GPT-5.5が企業のリポジトリ、運用中の表計算、ブラウザをまたぐ業務フローに入り込んだとき、どこまで安定して働き続けるか。そこに本当の値段が付く。
Related Articles
OpenAIDevsは2026年3月16日、Codexでsubagentsが利用可能になったと発表した。main contextを軽く保ちながらspecialized agentへ仕事を並列分散し、各threadを個別にsteerできるようにする更新で、公式ドキュメントにはPR reviewやCSV batch fan-outの運用例もすでに載っている。
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
OpenAIとDell Technologiesが5月18日、Codexをハイブリッド・オンプレミス企業環境に展開するための正式パートナーシップを発表した。Dell AI Data PlatformとAI Factoryを通じて社内データとCodexを接続する。金融・医療・政府など規制産業が主なターゲットで、Codexは現在週400万人以上の開発者が利用している。