중요한 점은 model이 빨라져도 orchestration 비용이 이득을 잡아먹을 수 있다는 데 있다. OpenAI는 WebSocket 모드로 agent workflow를 종단 간 최대 40% 줄였고, 체감 추론 속도도 초당 약 65토큰에서 1,000토큰에 가깝게 끌어올렸다고 적었다.
#responses-api
RSS Feed병목이 GPU에서 API 계층으로 옮겨가자 OpenAI는 전송 방식을 손봤다. Responses API에 WebSocket 모드와 연결 범위 캐시를 넣으면서 agent workflow가 end-to-end 기준 최대 40% 빨라졌고, GPT-5.3-Codex-Spark는 1,000 TPS와 최대 4,000 TPS burst에 도달했다고 한다.
OpenAI가 2026년 3월 11일 Responses API에 shell tool과 hosted container workspace를 결합한 computer environment 설계를 공개했다. 회사는 이를 통해 agent가 파일, 데이터, 네트워크 접근을 더 안전하고 반복 가능하게 처리할 수 있다고 설명했다.
OpenAI Developers는 2026년 3월 21일 skills·hosted shell·code interpreter용 컨테이너 기동이 새 container pool 덕분에 약 10배 빨라졌다고 밝혔다. 업데이트된 hosted shell 문서는 `container_auto`와 `container_reference`를 통해 활성 컨테이너를 재사용할 수 있고, 20분 비활성 상태 후 만료된다고 설명한다.
OpenAI Developers는 2026년 3월 11일 글에서 Responses API가 장시간 agent workflow를 처리하기 위해 hosted computer environment를 어떻게 구성했는지 설명했다. 핵심은 shell execution, hosted container, 통제된 network access, reusable skills, 그리고 native compaction이다.
OpenAIDevs는 2026-02-24 X 게시물에서 GPT-5.3-Codex가 Responses API에서 모든 개발자에게 제공된다고 밝혔다. 기존의 단계적 접근에서 일반 개발자 접근으로 전환된 점이 핵심이다.