LLM X/Twitter Apr 30, 2026 1 min read
重要なのは、modelが速くなっても周辺のorchestrationが遅ければ体感は伸びないことだ。OpenAIはWebSocket modeでagent workflowを最大40%短縮し、実効推論速度も毎秒約65 tokensから1,000 tokens近くまで引き上げたとしている。
重要なのは、modelが速くなっても周辺のorchestrationが遅ければ体感は伸びないことだ。OpenAIはWebSocket modeでagent workflowを最大40%短縮し、実効推論速度も毎秒約65 tokensから1,000 tokens近くまで引き上げたとしている。
ボトルネックがGPUからAPI層へ移ったため、OpenAIは転送方式そのものを変えた。Responses APIにWebSocketモードと接続スコープのキャッシュを入れたことで、agent workflowはend-to-endで最大40%改善し、GPT-5.3-Codex-Sparkは1,000 TPS、最大4,000 TPSのburstに届いたという。