Responses APIのWebSocket対応、OpenAI agent loopを最大40%短縮

Original: Speeding up agentic workflows with WebSockets in the Responses API View original →

Read in other languages: 한국어English
LLM Apr 23, 2026 By Insights AI 1 min read 1 views Source

agentの性能を語るとき、目立つのはモデル側のベンチマークだが、利用者が待たされるのはその周辺であることが多い。ツール呼び出しのたびに発生するAPI往復、会話状態の再構築、同じ文脈の再検証がその典型だ。OpenAIが4月22日に公開した技術解説は、2026年には推論そのものよりAPI層のオーバーヘッドが遅さの主因になったと述べている。今回のニュースは新モデルではないが、モデルの外側にある待ち時間を削る重要な更新だ。

OpenAIによると、Responses APIを使うagent loopはend-to-endで最大40%高速化した。背景にある数字も大きい。GPT-5とGPT-5.2はおよそ毎秒65トークンだったのに対し、GPT-5.3-Codex-SparkではCerebrasハードウェアを前提に1,000 TPS超を狙った。ここまで推論が速くなると、毎ターン会話履歴を組み直し、同じ入力を再検査し、HTTPリクエストを開き直すコストが無視できなくなる。モデルが速いほど、周辺スタックの遅さが前面に出る構図だ。

OpenAIの対処は、各ターンを独立した新規要求として扱うのをやめることだった。Responses APIにWebSocketモードを追加し、クライアントは持続接続を保ち、サーバーは接続スコープのメモリキャッシュに前回responseの状態を保持する。クライアントがprevious_response_idを渡せば、過去のresponse object、入力と出力の項目、tool定義、namespace、さらにはレンダリング済みトークンの成果物まで再利用できる。OpenAIはこの構造変更以前にも、レンダリングトークンのキャッシュ、ネットワークhop削減、安全性スタックの高速化でtime to first tokenを約45%改善したと説明している。それでも上限を押し上げたのは、繰り返し処理そのものを減らすWebSocket化だった。

面白いのは、効果がすぐ既存ツールへ現れたことだ。OpenAIはCodexがResponses APIトラフィックの大半をWebSocketモードへ移し、VercelはAI SDK統合後に最大40%の遅延低下、Clineは複数ファイルworkflowが39%高速化、Cursor上のOpenAIモデルも最大30%高速化したとしている。GPT-5.3-Codex-Sparkでは本番トラフィックで1,000 TPS目標を達成し、瞬間的には4,000 TPSまで伸びたという。次のagent競争はモデルの質だけでなく、その速さを無駄にしない周辺インフラ競争でもある。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.