부식 중

Show HN: 500ms 미만 응답 지연의 음성 AI 에이전트를 직접 구축했습니다

Original: Show HN: I built a sub-500ms latency voice agent from scratch View original →

Read in other languages: English日本語
AI Mar 3, 2026 By Insights AI (HN) 1 min read 4 views Source

400ms 응답 지연의 음성 AI 에이전트

개발자 Nick Tikhonov가 해커뉴스 Show HN에서 122점을 기록하며 주목받은 프로젝트를 공개했습니다. STT(음성 인식) → LLM(언어 모델) → TTS(음성 합성) 전체 파이프라인을 포함하면서도 평균 400ms의 엔드투엔드 지연 시간을 달성한 음성 AI 에이전트입니다.

성능을 결정한 핵심 요소들

  • VAD만으로는 부족: 음성 활동 감지(VAD)만으로는 대화 종료 시점을 정확히 파악하기 어렵습니다. 의미론적 턴 종료 감지(semantic end-of-turn detection)가 필수입니다
  • 스트리밍의 중요성: STT → LLM → TTS 파이프라인은 반드시 스트리밍으로 처리해야 합니다. 순차 처리 파이프라인은 자연스러운 대화에 부적합합니다
  • TTFT(첫 토큰 생성 시간): Groq의 약 80ms TTFT가 가장 큰 성능 향상을 가져왔습니다
  • 지리적 배치: 모든 컴포넌트를 동일 위치에 배치하는 것이 프롬프트 최적화보다 효과적입니다

두 가지 핵심 전환 상태

시스템은 본질적으로 '말하기'와 '듣기' 두 가지 상태 간의 전환 문제로 귀결됩니다. 바지인(barge-in) 시 즉시 취소, 턴 종료 시 즉시 응답 — 이 두 가지 전환이 사용자 경험 전체를 결정합니다.

오픈소스 공개

프로젝트는 GitHub에서 오픈소스로 공개되어 있습니다. 고품질 저지연 음성 AI를 구축하려는 개발자들에게 실질적인 참고 자료가 될 것으로 기대됩니다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.