Responses API에 WebSocket… OpenAI agent loop 최대 40% 단축

agent 성능을 말할 때 벤치마크 숫자는 자주 보이지만, 사용자가 실제로 체감하는 지연은 다른 곳에서 생긴다. 도구 호출 사이사이의 네트워크 왕복과 상태 재구성이 대표적이다. OpenAI가 2026년 4월 22일 공개한 엔지니어링 글의 요지는 단순하다. 2026년 들어 모델 추론이 빨라지자 이제는 GPU보다 API 계층이 더 느린 구간이 됐고, 그래서 전송 방식 자체를 바꿨다는 것이다.

OpenAI는 Responses API 기반 agent loop가 end-to-end 기준 최대 40% 빨라졌다고 설명한다. 배경에 있는 숫자도 분명하다. GPT-5와 GPT-5.2는 초당 약 65토큰 수준이었고, GPT-5.3-Codex-Spark는 Cerebras 하드웨어를 바탕으로 1,000 TPS 이상을 목표로 잡았다. 이 정도 속도에서는 매 턴마다 대화 이력을 다시 만들고, 같은 문맥을 다시 검증하고, 새 요청 경로를 다시 여는 비용이 더는 사소하지 않다. 모델이 빨라질수록 바깥쪽 스택이 발목을 잡는 구조가 된 셈이다.

해법은 매 턴을 독립 요청으로 보지 않는 것이다. OpenAI는 Responses API에 WebSocket 모드를 추가해 클라이언트가 지속 연결을 유지하도록 했고, 서버는 연결 범위 메모리 캐시에 이전 response 상태를 보관한다. 이후 클라이언트가 previous_response_id를 넘기면, 서버는 과거 response 객체, 입력과 출력 항목, tool 정의, namespace, 렌더링된 토큰 산출물까지 다시 활용할 수 있다. OpenAI는 이 구조를 넣기 전에도 렌더링 토큰 캐시, 네트워크 hop 축소, safety stack 최적화로 time to first token을 약 45% 줄였다고 적었다. 하지만 WebSocket이 들어가면서 반복 작업 자체를 덜어내는 구조적 개선이 가능해졌다.

흥미로운 대목은 이 변화가 바로 상용 도구에 반영됐다는 점이다. OpenAI는 Codex가 Responses API 트래픽의 대다수를 WebSocket 모드로 옮겼고, Vercel은 AI SDK 통합 뒤 지연이 최대 40% 줄었으며, Cline의 멀티파일 workflow는 39% 빨라졌고, Cursor의 OpenAI 모델도 최대 30% 빨라졌다고 밝혔다. GPT-5.3-Codex-Spark는 운영 트래픽에서 1,000 TPS 목표를 달성했고 순간적으로 4,000 TPS까지 올랐다고 한다. 이제 agent 경쟁은 모델 품질만이 아니라, 그 모델 속도를 허비하지 않는 주변 인프라 경쟁으로 넘어가고 있다.

Responses API에 WebSocket… OpenAI agent loop 최대 40% 단축

Related Articles

ChatGPT Voice, 데스크톱에서 Codex와 다중 agent 제어까지 확장한 음성 작업 방식

Responses API WebSockets 도입, agent loop 지연 최대 40% 절감

OpenAI 내부 Codex 사용, 부서 경계를 넘는 장시간 에이전트 업무로 확대