Responses APIのWebSocket対応、OpenAI agent loopを最大40%短縮

agentの性能を語るとき、目立つのはモデル側のベンチマークだが、利用者が待たされるのはその周辺であることが多い。ツール呼び出しのたびに発生するAPI往復、会話状態の再構築、同じ文脈の再検証がその典型だ。OpenAIが4月22日に公開した技術解説は、2026年には推論そのものよりAPI層のオーバーヘッドが遅さの主因になったと述べている。今回のニュースは新モデルではないが、モデルの外側にある待ち時間を削る重要な更新だ。

OpenAIによると、Responses APIを使うagent loopはend-to-endで最大40%高速化した。背景にある数字も大きい。GPT-5とGPT-5.2はおよそ毎秒65トークンだったのに対し、GPT-5.3-Codex-SparkではCerebrasハードウェアを前提に1,000 TPS超を狙った。ここまで推論が速くなると、毎ターン会話履歴を組み直し、同じ入力を再検査し、HTTPリクエストを開き直すコストが無視できなくなる。モデルが速いほど、周辺スタックの遅さが前面に出る構図だ。

OpenAIの対処は、各ターンを独立した新規要求として扱うのをやめることだった。Responses APIにWebSocketモードを追加し、クライアントは持続接続を保ち、サーバーは接続スコープのメモリキャッシュに前回responseの状態を保持する。クライアントがprevious_response_idを渡せば、過去のresponse object、入力と出力の項目、tool定義、namespace、さらにはレンダリング済みトークンの成果物まで再利用できる。OpenAIはこの構造変更以前にも、レンダリングトークンのキャッシュ、ネットワークhop削減、安全性スタックの高速化でtime to first tokenを約45%改善したと説明している。それでも上限を押し上げたのは、繰り返し処理そのものを減らすWebSocket化だった。

面白いのは、効果がすぐ既存ツールへ現れたことだ。OpenAIはCodexがResponses APIトラフィックの大半をWebSocketモードへ移し、VercelはAI SDK統合後に最大40%の遅延低下、Clineは複数ファイルworkflowが39%高速化、Cursor上のOpenAIモデルも最大30%高速化したとしている。GPT-5.3-Codex-Sparkでは本番トラフィックで1,000 TPS目標を達成し、瞬間的には4,000 TPSまで伸びたという。次のagent競争はモデルの質だけでなく、その速さを無駄にしない周辺インフラ競争でもある。

Responses APIのWebSocket対応、OpenAI agent loopを最大40%短縮

Related Articles

Codex週次利用400万人、OpenAIがCodex Labsと7社GSIで企業導入拡大

Codex、週300万developersにMac app・browser・image作業まで任せる

OpenAI、Codexの週間利用者が300万人に到達と発表… 100万人増えるごとにusage limitsを再設定

Comments (0)

Leave a Comment

Related Articles

Codex週次利用400万人、OpenAIがCodex Labsと7社GSIで企業導入拡大
これは単なる利用者数の話ではなく、流通戦略の話だ。OpenAIによると、Codexは4月初旬の週次300万人超から2週間で400万人超へ伸び、その需要をCodex Labsと7社のGSI体制で受け止める構えに入った。

Codex、週300万developersにMac app・browser・image作業まで任せる

OpenAI、Codexの週間利用者が300万人に到達と発表… 100万人増えるごとにusage limitsを再設定
LLM sources.twitter Apr 8, 2026 1 min read