GPT-5.5、エージェント型コーディングを押し上げつつ遅延は据え置き
Original: Introducing GPT-5.5 View original →
OpenAIがGPT-5.5で狙っているのは、ベンチマーク表の塗り替えだけではない。今回のモデルは、コード作成とデバッグ、ウェブ調査、データ分析、ドキュメントやスプレッドシート作成、ツールの行き来まで、ばらけた仕事をまとめて渡しても、途中で止まりにくく、最後まで運びやすいことを前面に出している。ここが重要だ。いまのコーディングエージェント市場はデモでは強いが、実案件に入ると曖昧な要件や長い文脈で失速する場面が少なくなかった。
数字もその方向を支えている。公開ページでOpenAIは、GPT-5.5がTerminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%、GDPvalで84.9%、OSWorld-Verifiedで78.7%を出したと説明する。しかも実運用の配信ではGPT-5.4と同等のper-tokenレイテンシーを保ちつつ、Codexの作業ではより少ないトークンで終えられるという。ここでの焦点は「少し賢い」ではなく、「同じ時間とコストでより多くの仕事を終わらせる」ことにある。
配布の広がりも速い。4月23日の時点で、OpenAIはGPT-5.5をChatGPTとCodexのPlus、Pro、Business、Enterpriseに順次展開すると案内した。GPT-5.5 ProはPro、Business、Enterpriseが先行対象だ。さらに同じページは4月24日に更新され、GPT-5.5とGPT-5.5 ProがAPIでも利用可能になったと明記された。これは単なるChatGPT機能追加では終わらない。外部の開発ツールや業務プロダクトがすぐ取り込める、れっきとしたプラットフォーム側の更新になった。
最初に圧力を受けるのは開発ツール市場だろう。OpenAIはGPT-5.5を自社で最も強いagentic codingモデルと位置づけ、初期ユーザーの例としてデバッグ、大規模リファクタ、ブランチ統合のような現実のエンジニア作業を並べている。もちろん先行ユーザーの声だけで結論は出ない。それでも今回の評価セットが示す方向は重い。端末上のワークフロー、GitHub issue解決、実際のコンピューター操作といった、エンジニアが本当に委任する仕事に近い評価が前面に出てきたからだ。
ただし条件もはっきりしている。OpenAIはGPT-5.5にこれまでで最も強い安全策を入れ、サイバーと生物分野の試験を広げ、約200のearly-accessパートナーからフィードバックを集めたと説明する。長く動けるモデルほど、安全側の負担も増える。結局の勝負は初日のスコアではない。GPT-5.5が企業のリポジトリ、運用中の表計算、ブラウザをまたぐ業務フローに入り込んだとき、どこまで安定して働き続けるか。そこに本当の値段が付く。
Related Articles
HNはGPT-5.5を単なる新モデルとしてではなく、雑多なPC作業を本当に最後まで任せられるかの試金石として見た。話題の中心もベンチよりロールアウト、API時期、実運用でのコーディング性能だった。
OpenAIはCodexを週300万超のdevelopersが使っているとし、desktop appをcode editorの外へ広げた。UpdateにはmacOS background computer use、in-app browser、gpt-image-1.5 image generation、90超のplugins、PR review workflow、SSH devboxes alpha、automations、memory previewが含まれる。
重要なのは、OpenAIがGPT-5.5を単なるchat refreshではなくagent workflowの中核へ置いたことだ。メインtweetの2分後、OpenAI DevelopersはChatGPTとCodexへの投入を補足し、API提供も続くと示した。
Comments (0)
No comments yet. Be the first to comment!