Show HN: 500ms 미만 응답 지연의 음성 AI 에이전트를 직접 구축했습니다
Original: Show HN: I built a sub-500ms latency voice agent from scratch View original →
400ms 응답 지연의 음성 AI 에이전트
개발자 Nick Tikhonov가 해커뉴스 Show HN에서 122점을 기록하며 주목받은 프로젝트를 공개했습니다. STT(음성 인식) → LLM(언어 모델) → TTS(음성 합성) 전체 파이프라인을 포함하면서도 평균 400ms의 엔드투엔드 지연 시간을 달성한 음성 AI 에이전트입니다.
성능을 결정한 핵심 요소들
- VAD만으로는 부족: 음성 활동 감지(VAD)만으로는 대화 종료 시점을 정확히 파악하기 어렵습니다. 의미론적 턴 종료 감지(semantic end-of-turn detection)가 필수입니다
- 스트리밍의 중요성: STT → LLM → TTS 파이프라인은 반드시 스트리밍으로 처리해야 합니다. 순차 처리 파이프라인은 자연스러운 대화에 부적합합니다
- TTFT(첫 토큰 생성 시간): Groq의 약 80ms TTFT가 가장 큰 성능 향상을 가져왔습니다
- 지리적 배치: 모든 컴포넌트를 동일 위치에 배치하는 것이 프롬프트 최적화보다 효과적입니다
두 가지 핵심 전환 상태
시스템은 본질적으로 '말하기'와 '듣기' 두 가지 상태 간의 전환 문제로 귀결됩니다. 바지인(barge-in) 시 즉시 취소, 턴 종료 시 즉시 응답 — 이 두 가지 전환이 사용자 경험 전체를 결정합니다.
오픈소스 공개
프로젝트는 GitHub에서 오픈소스로 공개되어 있습니다. 고품질 저지연 음성 AI를 구축하려는 개발자들에게 실질적인 참고 자료가 될 것으로 기대됩니다.
Related Articles
IBM은 2026 X-Force Threat Index에서 public-facing applications 악용으로 시작한 공격이 전년 대비 44% 증가했다고 밝혔다. 보고서는 2025년 관측 incident의 40%가 vulnerability exploitation에서 시작했고, infostealer로 노출된 ChatGPT credential이 300,000개를 넘었다고도 설명한다.
Anthropic은 2026년 3월 5일 성명을 통해 Department of War의 공급망 리스크 지정 통보를 받았다고 밝혔다. 회사는 조치의 적용 범위가 제한적이라고 설명하면서도 법적 대응과 전환 지원을 병행하겠다고 했다.
Anthropic이 2026년 3월 5일 공개한 연구에서 AI 노출을 측정하는 observed exposure 지표를 제시했다. 보고서는 고노출 직군의 고용 변화가 아직 크지 않지만 채용 구조 변화 조짐은 관찰된다고 설명했다.
Comments (0)
No comments yet. Be the first to comment!