LiveKit, voice agent용 Adaptive Interruption Handling 정식 제공… VAD 오탐 문제 완화

X에서 LiveKit이 제시한 문제의식

2026년 3월 19일, LiveKit은 voice agent의 흔한 실패 원인을 간단하게 짚었다. VAD가 너무 민감하다는 것이다. 웃음, “mm-hmm” 같은 backchannel, 재채기, 각종 주변 소음 때문에 agent가 사용자가 본격적으로 말을 끊은 것처럼 반응해서는 안 된다는 설명이다. LiveKit은 이런 문제를 해결하기 위해 adaptive interruption handling용 audio model을 학습했다고 밝혔다.

표면적으로는 UX 보정처럼 보이지만, 실제로는 conversational AI의 가장 어려운 실시간 문제 중 하나인 turn taking을 건드린다. voice agent는 사용자를 너무 자주 끊어 먹어도 어색하고, 반대로 사소한 소리마다 멈춰도 금방 부자연스러워진다.

LiveKit 블로그가 밝힌 세부 내용

연결된 블로그는 Adaptive Interruption Handling이 이제 LiveKit Agents에 정식 제공된다고 설명한다. 단순 VAD만 쓰는 대신, 새로운 시스템은 사용자 음성이 감지된 뒤 첫 몇백 ms 안에 별도의 audio-based interruption model을 실행한다. LiveKit에 따르면 이 모델은 waveform shape, 발화 시작의 강도와 sharpness, 신호 길이, pitch와 rhythm 같은 prosodic feature를 보고 사용자가 정말 새 발화를 시작하는지 판단한다.

학습 데이터도 강조된다. 회사는 수백 시간 규모의 human-to-human conversation 데이터를 모았고, 여기에 다양한 noise를 섞어 실제 환경을 반영했다고 말한다. 또한 모델이 multilingual이며 학습 때 명시적으로 보지 못한 언어에도 일반화된다고 설명한다.

benchmark 수치도 구체적이다. LiveKit은 500ms overlap speech 기준 86% precision, 100% recall을 기록했고, VAD 기반 false-positive barge-in의 51%를 걸러냈다고 밝혔다. 실제 interruption은 64% 경우에서 VAD보다 더 빠르게 탐지했고, inference는 30ms 이하, interruption을 트리거하는 데 필요한 median audio 길이는 216ms였다고 설명한다.

운영 측면에서는 Python Agents v1.5.0+, TypeScript Agents v1.2.0+에서 기본 활성화된다. LiveKit은 LiveKit Cloud에 배포된 agent라면 추가 비용 없이 자동으로 적용되며, self-hosted 사용자는 요금제 전반에 걸쳐 월 40,000건의 inference 요청을 제공받는다고 밝혔다.

왜 중요한가

많은 voice agent 데모는 사람이 자연스럽게 반응하기 시작하는 순간 한계를 드러낸다. 실제 대화에는 짧은 맞장구, 망설임, 웃음, 기침, 배경 소음이 항상 섞여 있다. 이런 요소를 제대로 다루는지가 단순히 “말하는 시스템”과 “대화에 참여하는 시스템”을 가른다.

LiveKit의 수치가 실제 production voice app에서도 유지된다면, 개선 폭은 데모 품질을 넘어선다. interruption 오탐이 줄어들수록 turn break가 줄고, 체감 latency가 개선되며, downstream agent logic도 불필요한 중단 때문에 덜 흔들리게 된다.

출처: LiveKit X 게시물 · LiveKit 블로그

LiveKit, voice agent용 Adaptive Interruption Handling 정식 제공… VAD 오탐 문제 완화

X에서 LiveKit이 제시한 문제의식

LiveKit 블로그가 밝힌 세부 내용

왜 중요한가

Related Articles

LiveKit, xAI TTS를 Inference에 추가해 20개 이상 언어와 무별도 키 경로 제공

Hacker News가 주목한 초소형 CPU용 TTS, Kitten TTS v0.8

Vercel, Notion Workers를 Sandbox 기반 agent-ready 플랫폼 사례로 제시

Comments (0)

Leave a Comment

Related Articles

LiveKit, xAI TTS를 Inference에 추가해 20개 이상 언어와 무별도 키 경로 제공

Hacker News가 주목한 초소형 CPU용 TTS, Kitten TTS v0.8
Kitten TTS v0.8의 Show HN 글은 15M~80M ONNX 모델, 25MB급 배포 크기, CPU 중심 설계로 관심을 모았고, 실사용 품질과 데이터 출처에 대한 질문도 함께 끌어냈다.

Vercel, Notion Workers를 Sandbox 기반 agent-ready 플랫폼 사례로 제시