Show HN: 500ms 미만 응답 지연의 음성 AI 에이전트를 직접 구축했습니다
Original: Show HN: I built a sub-500ms latency voice agent from scratch View original →
400ms 응답 지연의 음성 AI 에이전트
개발자 Nick Tikhonov가 해커뉴스 Show HN에서 122점을 기록하며 주목받은 프로젝트를 공개했습니다. STT(음성 인식) → LLM(언어 모델) → TTS(음성 합성) 전체 파이프라인을 포함하면서도 평균 400ms의 엔드투엔드 지연 시간을 달성한 음성 AI 에이전트입니다.
성능을 결정한 핵심 요소들
- VAD만으로는 부족: 음성 활동 감지(VAD)만으로는 대화 종료 시점을 정확히 파악하기 어렵습니다. 의미론적 턴 종료 감지(semantic end-of-turn detection)가 필수입니다
- 스트리밍의 중요성: STT → LLM → TTS 파이프라인은 반드시 스트리밍으로 처리해야 합니다. 순차 처리 파이프라인은 자연스러운 대화에 부적합합니다
- TTFT(첫 토큰 생성 시간): Groq의 약 80ms TTFT가 가장 큰 성능 향상을 가져왔습니다
- 지리적 배치: 모든 컴포넌트를 동일 위치에 배치하는 것이 프롬프트 최적화보다 효과적입니다
두 가지 핵심 전환 상태
시스템은 본질적으로 '말하기'와 '듣기' 두 가지 상태 간의 전환 문제로 귀결됩니다. 바지인(barge-in) 시 즉시 취소, 턴 종료 시 즉시 응답 — 이 두 가지 전환이 사용자 경험 전체를 결정합니다.
오픈소스 공개
프로젝트는 GitHub에서 오픈소스로 공개되어 있습니다. 고품질 저지연 음성 AI를 구축하려는 개발자들에게 실질적인 참고 자료가 될 것으로 기대됩니다.
Related Articles
TNW는 Google이 Marvell과 두 종류의 AI chip을 논의 중이라고 전했다. signed contract는 아직 없지만, memory processing unit과 inference TPU 구상은 AI 비용의 중심이 training에서 inference로 이동했음을 보여준다.
HN이 400개 넘는 댓글을 단 이유는 nostalgia가 아니라, AI 시대의 과제가 학생의 사고 과정을 어떻게 증명해야 하느냐는 질문이었다.
이 소송의 핵심은 군 내부에 들어간 뒤에도 모델 공급사가 통제 주체로 남는지다. AP가 전한 4월 22일 항소심 서면에서 Anthropic은 Claude가 국방부 기밀망에 배치된 뒤에는 자사가 조작할 수 없다고 주장했고, 이는 정부가 씌운 공급망 위험 딱지를 정면으로 겨냥했다.
Comments (0)
No comments yet. Be the first to comment!