Responses APIのWebSockets導入、agent loop遅延を最大40%圧縮
Original: Responses API WebSockets cut agent loops by up to 40% View original →
この開発者投稿が変えたもの
OpenAIのdeveloper accountが示したのは、単なるtransportの差し替えではない。agent infrastructureのボトルネックがinferenceだけではなくなった、という話だ。投稿では、Responses APIのWebSocketsがtool callのあいだresponse stateをwarmに保ち、workflowをend-to-endで最大40%速くすると説明している。ここが重要である。coding agentがfilesを読み、testsを回し、toolsを往復するようになると、小さなAPI overheadが積み重なって、待ち時間はすぐに大きくなるからだ。
“WebSockets keep response state warm across tool calls, helping workflows run up to 40% faster.”
OpenAIのengineering postは問題の規模をより具体的に書いている。以前のflagship modelsはResponses API上で毎秒およそ65 tokensだったが、GPT-5.3-Codex-Sparkでは目標が毎秒1,000 tokens近くまで跳ね上がり、request validation、routing、history processingの繰り返しコストが露出した。OpenAIはpersistent connectionを維持し、前回responseの状態をmemoryで再利用し、tool round tripごとに同じ処理をやり直さない設計へ変えたとしている。その結果、production trafficでは毎秒4,000 tokensのburstも出たという。
なぜ開発者にとって大きいのか
いちばん強い証拠は下流の採用だ。OpenAIによれば、CodexはResponses API trafficの大半をすばやくWebSocketsへ移し、Vercelは最大40%のlatency減、Clineは39%速いmulti-file workflows、CursorはOpenAI modelsで最大30%の高速化を見た。これはprotocolの選択がそのままproduct体験になるということだ。model actionとtool resultのあいだの無駄な待ち時間を削ることは、agent systemsの使い心地に直結する。
OpenAIDevsアカウントはbuildersに直接効く変更を出すことが多く、今回もroadmapではなく運用中の最適化として読むべきだろう。次に注目すべきは、より多くのagent frameworksがpersistent connectionを標準化するかどうか、そしてbrowser automationやcomputer useのようなtool-heavy surfaceにも同じ改善が波及するかだ。inferenceが速くなるほど、その速度を周辺で無駄にしない設計が勝ち筋になる。出典: OpenAIDevs source tweet · OpenAI engineering post
Related Articles
ボトルネックがGPUからAPI層へ移ったため、OpenAIは転送方式そのものを変えた。Responses APIにWebSocketモードと接続スコープのキャッシュを入れたことで、agent workflowはend-to-endで最大40%改善し、GPT-5.3-Codex-Sparkは1,000 TPS、最大4,000 TPSのburstに届いたという。
重要なのは、エージェント開発の律速段階がモデル速度ではなく人間のコンテキスト切り替えにあるとOpenAIが明言した点だ。OpenAIによれば、Symphony導入後は一部チームでマージ済みPRが500%増え、開発者が無理なく扱えるCodexセッションはおおむね3〜5本だった。
今回の本質はモデル追加ではなく流通経路の変化だ。OpenAIはGPT-5.5、Codex、Bedrock Managed AgentsをAWSで限定プレビューに載せ、企業が既存の認証・統制・調達の枠内でfrontier AIを使う道を広げた。
Comments (0)
No comments yet. Be the first to comment!