重要なのは、modelが速くなっても周辺のorchestrationが遅ければ体感は伸びないことだ。OpenAIはWebSocket modeでagent workflowを最大40%短縮し、実効推論速度も毎秒約65 tokensから1,000 tokens近くまで引き上げたとしている。
#responses-api
RSS FeedボトルネックがGPUからAPI層へ移ったため、OpenAIは転送方式そのものを変えた。Responses APIにWebSocketモードと接続スコープのキャッシュを入れたことで、agent workflowはend-to-endで最大40%改善し、GPT-5.3-Codex-Sparkは1,000 TPS、最大4,000 TPSのburstに届いたという。
OpenAIは2026年3月11日、Responses APIにshell toolとhosted container workspaceを組み合わせたcomputer environment設計を詳説した。これによりagentはファイル操作、データ処理、network accessをより安全かつ再現性高く扱えるようになると同社は説明している。
OpenAI Developersは2026年3月21日、skills・hosted shell・code interpreter向けコンテナ起動が新しいcontainer poolにより約10倍高速になったと述べた。更新されたhosted shellドキュメントでは、`container_auto`による自動作成、`container_reference`による再利用、20分の非アクティブ後の失効が説明されている。
OpenAI Developersは2026年3月11日、Responses APIが長時間のagent workflowを処理するために使うhosted computer environmentの設計を説明した。中心となる要素はshell execution、hosted container、制御されたnetwork access、reusable skills、native compactionだ。
OpenAIDevsは2026-02-24のX投稿で、GPT-5.3-CodexがResponses APIで全開発者向けに利用可能になったと公表した。段階提供から一般提供への移行がポイントだ。