Responses APIのWebSockets導入、agent loop遅延を最大40%圧縮

Original: Responses API WebSockets cut agent loops by up to 40% View original →

Read in other languages: 한국어English
LLM Apr 30, 2026 By Insights AI 1 min read 1 views Source

この開発者投稿が変えたもの

OpenAIのdeveloper accountが示したのは、単なるtransportの差し替えではない。agent infrastructureのボトルネックがinferenceだけではなくなった、という話だ。投稿では、Responses APIのWebSocketsがtool callのあいだresponse stateをwarmに保ち、workflowをend-to-endで最大40%速くすると説明している。ここが重要である。coding agentがfilesを読み、testsを回し、toolsを往復するようになると、小さなAPI overheadが積み重なって、待ち時間はすぐに大きくなるからだ。

“WebSockets keep response state warm across tool calls, helping workflows run up to 40% faster.”

OpenAIのengineering postは問題の規模をより具体的に書いている。以前のflagship modelsはResponses API上で毎秒およそ65 tokensだったが、GPT-5.3-Codex-Sparkでは目標が毎秒1,000 tokens近くまで跳ね上がり、request validation、routing、history processingの繰り返しコストが露出した。OpenAIはpersistent connectionを維持し、前回responseの状態をmemoryで再利用し、tool round tripごとに同じ処理をやり直さない設計へ変えたとしている。その結果、production trafficでは毎秒4,000 tokensのburstも出たという。

なぜ開発者にとって大きいのか

いちばん強い証拠は下流の採用だ。OpenAIによれば、CodexはResponses API trafficの大半をすばやくWebSocketsへ移し、Vercelは最大40%のlatency減、Clineは39%速いmulti-file workflows、CursorはOpenAI modelsで最大30%の高速化を見た。これはprotocolの選択がそのままproduct体験になるということだ。model actionとtool resultのあいだの無駄な待ち時間を削ることは、agent systemsの使い心地に直結する。

OpenAIDevsアカウントはbuildersに直接効く変更を出すことが多く、今回もroadmapではなく運用中の最適化として読むべきだろう。次に注目すべきは、より多くのagent frameworksがpersistent connectionを標準化するかどうか、そしてbrowser automationやcomputer useのようなtool-heavy surfaceにも同じ改善が波及するかだ。inferenceが速くなるほど、その速度を周辺で無駄にしない設計が勝ち筋になる。出典: OpenAIDevs source tweet · OpenAI engineering post

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment