#latency

LLM X/Twitter Apr 30, 2026 1 min read

Responses API WebSockets 도입, agent loop 지연 최대 40% 절감

중요한 점은 model이 빨라져도 orchestration 비용이 이득을 잡아먹을 수 있다는 데 있다. OpenAI는 WebSocket 모드로 agent workflow를 종단 간 최대 40% 줄였고, 체감 추론 속도도 초당 약 65토큰에서 1,000토큰에 가깝게 끌어올렸다고 적었다.

#openai #responses-api #websockets

LLM X/Twitter Mar 5, 2026 1 min read

OpenAIDevs, Codex /fast 모드 공개… GPT-5.4를 1.5배 더 빠르게 실행

OpenAIDevs는 Codex에 /fast 모드를 도입해 GPT-5.4가 1.5배 빠르게 동작한다고 밝혔다. 회사는 지능과 추론 품질을 유지한 채 코딩·반복 수정·디버깅 속도를 높일 수 있다고 설명했다.

#codex #gpt-5-4 #developer-tools

AI Hacker News Mar 3, 2026 1 min read

Show HN: 500ms 미만 응답 지연의 음성 AI 에이전트를 직접 구축했습니다

개발자 Nick Tikhonov가 STT → LLM → TTS 전체 파이프라인을 포함하고도 평균 400ms의 엔드투엔드 지연 시간을 달성한 음성 AI 에이전트를 처음부터 직접 구축한 방법을 공유했습니다.

#voice-agent #ai #llm

LLM Hacker News Feb 16, 2026 1 min read

빠른 LLM 추론을 위한 두 가지 접근: 배치 최적화 vs 전용 칩

Hacker News에서 주목받은 글이 Anthropic과 OpenAI의 fast mode를 비교하며, LLM 추론 성능에서 배치 크기와 하드웨어 전략이 어떻게 다른 결과를 만드는지 설명했다.

#llm #inference #latency