LLM X/Twitter Apr 30, 2026 1 min read
중요한 점은 model이 빨라져도 orchestration 비용이 이득을 잡아먹을 수 있다는 데 있다. OpenAI는 WebSocket 모드로 agent workflow를 종단 간 최대 40% 줄였고, 체감 추론 속도도 초당 약 65토큰에서 1,000토큰에 가깝게 끌어올렸다고 적었다.
중요한 점은 model이 빨라져도 orchestration 비용이 이득을 잡아먹을 수 있다는 데 있다. OpenAI는 WebSocket 모드로 agent workflow를 종단 간 최대 40% 줄였고, 체감 추론 속도도 초당 약 65토큰에서 1,000토큰에 가깝게 끌어올렸다고 적었다.
병목이 GPU에서 API 계층으로 옮겨가자 OpenAI는 전송 방식을 손봤다. Responses API에 WebSocket 모드와 연결 범위 캐시를 넣으면서 agent workflow가 end-to-end 기준 최대 40% 빨라졌고, GPT-5.3-Codex-Spark는 1,000 TPS와 최대 4,000 TPS burst에 도달했다고 한다.