Responses APIのWebSocket対応、OpenAI agent loopを最大40%短縮
Original: Speeding up agentic workflows with WebSockets in the Responses API View original →
agentの性能を語るとき、目立つのはモデル側のベンチマークだが、利用者が待たされるのはその周辺であることが多い。ツール呼び出しのたびに発生するAPI往復、会話状態の再構築、同じ文脈の再検証がその典型だ。OpenAIが4月22日に公開した技術解説は、2026年には推論そのものよりAPI層のオーバーヘッドが遅さの主因になったと述べている。今回のニュースは新モデルではないが、モデルの外側にある待ち時間を削る重要な更新だ。
OpenAIによると、Responses APIを使うagent loopはend-to-endで最大40%高速化した。背景にある数字も大きい。GPT-5とGPT-5.2はおよそ毎秒65トークンだったのに対し、GPT-5.3-Codex-SparkではCerebrasハードウェアを前提に1,000 TPS超を狙った。ここまで推論が速くなると、毎ターン会話履歴を組み直し、同じ入力を再検査し、HTTPリクエストを開き直すコストが無視できなくなる。モデルが速いほど、周辺スタックの遅さが前面に出る構図だ。
OpenAIの対処は、各ターンを独立した新規要求として扱うのをやめることだった。Responses APIにWebSocketモードを追加し、クライアントは持続接続を保ち、サーバーは接続スコープのメモリキャッシュに前回responseの状態を保持する。クライアントがprevious_response_idを渡せば、過去のresponse object、入力と出力の項目、tool定義、namespace、さらにはレンダリング済みトークンの成果物まで再利用できる。OpenAIはこの構造変更以前にも、レンダリングトークンのキャッシュ、ネットワークhop削減、安全性スタックの高速化でtime to first tokenを約45%改善したと説明している。それでも上限を押し上げたのは、繰り返し処理そのものを減らすWebSocket化だった。
面白いのは、効果がすぐ既存ツールへ現れたことだ。OpenAIはCodexがResponses APIトラフィックの大半をWebSocketモードへ移し、VercelはAI SDK統合後に最大40%の遅延低下、Clineは複数ファイルworkflowが39%高速化、Cursor上のOpenAIモデルも最大30%高速化したとしている。GPT-5.3-Codex-Sparkでは本番トラフィックで1,000 TPS目標を達成し、瞬間的には4,000 TPSまで伸びたという。次のagent競争はモデルの質だけでなく、その速さを無駄にしない周辺インフラ競争でもある。
Related Articles
これは単なる利用者数の話ではなく、流通戦略の話だ。OpenAIによると、Codexは4月初旬の週次300万人超から2週間で400万人超へ伸び、その需要をCodex Labsと7社のGSI体制で受け止める構えに入った。
OpenAIはCodexを週300万超のdevelopersが使っているとし、desktop appをcode editorの外へ広げた。UpdateにはmacOS background computer use、in-app browser、gpt-image-1.5 image generation、90超のplugins、PR review workflow、SSH devboxes alpha、automations、memory previewが含まれる。
OpenAIのTibo Sottiauxは2026年4月7日のXで、Codexの週間利用者が300万人に達したと述べた。彼は200万人から300万人への増加が1か月未満だったと説明し、OpenAIは1000万人に達するまで100万人増えるたびにusage limitsをリセットするとした。
Comments (0)
No comments yet. Be the first to comment!