#websockets

LLM X/Twitter Apr 30, 2026 1 min read

Responses APIのWebSockets導入、agent loop遅延を最大40%圧縮

重要なのは、modelが速くなっても周辺のorchestrationが遅ければ体感は伸びないことだ。OpenAIはWebSocket modeでagent workflowを最大40%短縮し、実効推論速度も毎秒約65 tokensから1,000 tokens近くまで引き上げたとしている。

#openai #responses-api #websockets

LLM Apr 23, 2026 1 min read

Responses APIのWebSocket対応、OpenAI agent loopを最大40%短縮

ボトルネックがGPUからAPI層へ移ったため、OpenAIは転送方式そのものを変えた。Responses APIにWebSocketモードと接続スコープのキャッシュを入れたことで、agent workflowはend-to-endで最大40%改善し、GPT-5.3-Codex-Sparkは1,000 TPS、最大4,000 TPSのburstに届いたという。

#openai #responses-api #websockets