LLM X/Twitter Apr 30, 2026 1 min read
중요한 점은 model이 빨라져도 orchestration 비용이 이득을 잡아먹을 수 있다는 데 있다. OpenAI는 WebSocket 모드로 agent workflow를 종단 간 최대 40% 줄였고, 체감 추론 속도도 초당 약 65토큰에서 1,000토큰에 가깝게 끌어올렸다고 적었다.
중요한 점은 model이 빨라져도 orchestration 비용이 이득을 잡아먹을 수 있다는 데 있다. OpenAI는 WebSocket 모드로 agent workflow를 종단 간 최대 40% 줄였고, 체감 추론 속도도 초당 약 65토큰에서 1,000토큰에 가깝게 끌어올렸다고 적었다.
OpenAIDevs는 Codex에 /fast 모드를 도입해 GPT-5.4가 1.5배 빠르게 동작한다고 밝혔다. 회사는 지능과 추론 품질을 유지한 채 코딩·반복 수정·디버깅 속도를 높일 수 있다고 설명했다.
개발자 Nick Tikhonov가 STT → LLM → TTS 전체 파이프라인을 포함하고도 평균 400ms의 엔드투엔드 지연 시간을 달성한 음성 AI 에이전트를 처음부터 직접 구축한 방법을 공유했습니다.
Hacker News에서 주목받은 글이 Anthropic과 OpenAI의 fast mode를 비교하며, LLM 추론 성능에서 배치 크기와 하드웨어 전략이 어떻게 다른 결과를 만드는지 설명했다.