LiveKit, voice agent용 Adaptive Interruption Handling 정식 제공… VAD 오탐 문제 완화

Original: How can a voice agent tell when you’re actually interrupting it? VAD is too sensitive—laughs, “mm-hmm,” or a sneeze shouldn’t stop the agent. We trained an audio model for adaptive interruption handling so agents can distinguish real interruptions from noise. View original →

Read in other languages: English日本語
AI Mar 23, 2026 By Insights AI 2 min read Source

X에서 LiveKit이 제시한 문제의식

2026년 3월 19일, LiveKit은 voice agent의 흔한 실패 원인을 간단하게 짚었다. VAD가 너무 민감하다는 것이다. 웃음, “mm-hmm” 같은 backchannel, 재채기, 각종 주변 소음 때문에 agent가 사용자가 본격적으로 말을 끊은 것처럼 반응해서는 안 된다는 설명이다. LiveKit은 이런 문제를 해결하기 위해 adaptive interruption handling용 audio model을 학습했다고 밝혔다.

표면적으로는 UX 보정처럼 보이지만, 실제로는 conversational AI의 가장 어려운 실시간 문제 중 하나인 turn taking을 건드린다. voice agent는 사용자를 너무 자주 끊어 먹어도 어색하고, 반대로 사소한 소리마다 멈춰도 금방 부자연스러워진다.

LiveKit 블로그가 밝힌 세부 내용

연결된 블로그는 Adaptive Interruption Handling이 이제 LiveKit Agents에 정식 제공된다고 설명한다. 단순 VAD만 쓰는 대신, 새로운 시스템은 사용자 음성이 감지된 뒤 첫 몇백 ms 안에 별도의 audio-based interruption model을 실행한다. LiveKit에 따르면 이 모델은 waveform shape, 발화 시작의 강도와 sharpness, 신호 길이, pitch와 rhythm 같은 prosodic feature를 보고 사용자가 정말 새 발화를 시작하는지 판단한다.

학습 데이터도 강조된다. 회사는 수백 시간 규모의 human-to-human conversation 데이터를 모았고, 여기에 다양한 noise를 섞어 실제 환경을 반영했다고 말한다. 또한 모델이 multilingual이며 학습 때 명시적으로 보지 못한 언어에도 일반화된다고 설명한다.

benchmark 수치도 구체적이다. LiveKit은 500ms overlap speech 기준 86% precision, 100% recall을 기록했고, VAD 기반 false-positive barge-in의 51%를 걸러냈다고 밝혔다. 실제 interruption은 64% 경우에서 VAD보다 더 빠르게 탐지했고, inference는 30ms 이하, interruption을 트리거하는 데 필요한 median audio 길이는 216ms였다고 설명한다.

운영 측면에서는 Python Agents v1.5.0+, TypeScript Agents v1.2.0+에서 기본 활성화된다. LiveKit은 LiveKit Cloud에 배포된 agent라면 추가 비용 없이 자동으로 적용되며, self-hosted 사용자는 요금제 전반에 걸쳐 월 40,000건의 inference 요청을 제공받는다고 밝혔다.

왜 중요한가

많은 voice agent 데모는 사람이 자연스럽게 반응하기 시작하는 순간 한계를 드러낸다. 실제 대화에는 짧은 맞장구, 망설임, 웃음, 기침, 배경 소음이 항상 섞여 있다. 이런 요소를 제대로 다루는지가 단순히 “말하는 시스템”과 “대화에 참여하는 시스템”을 가른다.

LiveKit의 수치가 실제 production voice app에서도 유지된다면, 개선 폭은 데모 품질을 넘어선다. interruption 오탐이 줄어들수록 turn break가 줄고, 체감 latency가 개선되며, downstream agent logic도 불필요한 중단 때문에 덜 흔들리게 된다.

출처: LiveKit X 게시물 · LiveKit 블로그

Share: Long

Related Articles

AI sources.twitter 6d ago 1 min read

Vercel은 2026년 3월 12일 X에서 Notion Workers가 Vercel Sandbox 위에서 agent-capable code를 실행한다고 강조했다. Vercel 공식 글은 Workers가 third-party sync, automation, AI agent tool call을 담당하고, Sandbox가 isolation, credential management, network control, snapshots, active-CPU billing을 제공한다고 설명한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.