Show HN: 500ms 미만 응답 지연의 음성 AI 에이전트를 직접 구축했습니다
Original: Show HN: I built a sub-500ms latency voice agent from scratch View original →
400ms 응답 지연의 음성 AI 에이전트
개발자 Nick Tikhonov가 해커뉴스 Show HN에서 122점을 기록하며 주목받은 프로젝트를 공개했습니다. STT(음성 인식) → LLM(언어 모델) → TTS(음성 합성) 전체 파이프라인을 포함하면서도 평균 400ms의 엔드투엔드 지연 시간을 달성한 음성 AI 에이전트입니다.
성능을 결정한 핵심 요소들
- VAD만으로는 부족: 음성 활동 감지(VAD)만으로는 대화 종료 시점을 정확히 파악하기 어렵습니다. 의미론적 턴 종료 감지(semantic end-of-turn detection)가 필수입니다
- 스트리밍의 중요성: STT → LLM → TTS 파이프라인은 반드시 스트리밍으로 처리해야 합니다. 순차 처리 파이프라인은 자연스러운 대화에 부적합합니다
- TTFT(첫 토큰 생성 시간): Groq의 약 80ms TTFT가 가장 큰 성능 향상을 가져왔습니다
- 지리적 배치: 모든 컴포넌트를 동일 위치에 배치하는 것이 프롬프트 최적화보다 효과적입니다
두 가지 핵심 전환 상태
시스템은 본질적으로 '말하기'와 '듣기' 두 가지 상태 간의 전환 문제로 귀결됩니다. 바지인(barge-in) 시 즉시 취소, 턴 종료 시 즉시 응답 — 이 두 가지 전환이 사용자 경험 전체를 결정합니다.
오픈소스 공개
프로젝트는 GitHub에서 오픈소스로 공개되어 있습니다. 고품질 저지연 음성 AI를 구축하려는 개발자들에게 실질적인 참고 자료가 될 것으로 기대됩니다.
Related Articles
HN의 관심은 낙관론보다 숫자에 모였다. Ed Zitron의 글은 AI 인프라가 계속 커지려면 2030년까지 막대한 매출과 부채 조달이 필요하다는 주장을 비용 구조로 밀어붙인다.
안드레이 카르파티가 LLM 응답을 HTML 형식으로 요청한 뒤 브라우저에서 여는 실용적인 팁을 공유했다. 텍스트에서 마크다운, HTML, 인터랙티브 신경 시뮬레이션으로 이어지는 인간-AI 인터페이스의 진화 방향도 함께 제시한다.
Google의 새 비디오 생성 모델 'Omni'의 유출 영상이 공개됐다. 기존 비디오 생성 모델의 약점으로 지적되어온 텍스트 렌더링의 일관성이 크게 개선된 것으로 보인다.