LiveKit、voice agent向けAdaptive Interruption Handlingを正式提供 VAD誤検知を緩和

Original: How can a voice agent tell when you’re actually interrupting it? VAD is too sensitive—laughs, “mm-hmm,” or a sneeze shouldn’t stop the agent. We trained an audio model for adaptive interruption handling so agents can distinguish real interruptions from noise. View original →

Read in other languages: 한국어English
AI Mar 23, 2026 By Insights AI 1 min read Source

XでLiveKitが提示した問題

2026年3月19日、LiveKitはvoice agentの典型的な失敗を端的に説明した。VADが敏感すぎる、という点だ。笑い声、“mm-hmm”のようなbackchannel、くしゃみ、各種ノイズでagentが完全なbarge-inだと誤解して止まるべきではない。LiveKitはこの問題に対し、adaptive interruption handlingのためのaudio modelを学習したと述べた。

これは一見すると細かなUX改善に見えるが、実際にはconversation AIでもっとも難しいリアルタイム課題の一つであるturn takingに直結する。voice agentはユーザーを話し越しても不自然だし、逆に些細な音で止まりすぎてもすぐロボット的に感じられる。

LiveKit blogが加えた詳細

リンク先のblogによれば、Adaptive Interruption Handlingは現在LiveKit Agentsで一般提供されている。単純なVADだけに頼るのではなく、新しい仕組みはuser speechが検出された最初の数百msで別のaudio-based interruption modelを走らせる。LiveKitによれば、このmodelはwaveform shape、発話開始の強さとsharpness、signal duration、pitchやrhythmといったprosodic featureを見て、本当に新しいutteranceが始まったのかを判断する。

学習データについても同社は詳しく述べている。数百時間分のhuman-to-human conversationを集め、そこへさまざまなnoiseを混ぜることで現実の入力条件に近づけたという。さらに、このmodelはmultilingualで、学習時に明示的に見ていないlanguageにも一般化できるとしている。

benchmarkも具体的だ。LiveKitは500ms overlap speech86% precision100% recallを記録し、VAD由来のfalse-positive barge-inの51%を回避したという。真のinterruptionは64%のケースでVADより速く検出され、inferenceは30ms以下、interruptionを起こすまでに必要なmedian audioは216msだったと説明する。

運用面では、Python Agents v1.5.0+とTypeScript Agents v1.2.0+で標準有効化される。LiveKitはLiveKit Cloud上のagentなら追加コストなしで自動適用され、self-hosted利用者には全plan合計で月40,000件のinference requestを含めるとしている。

なぜ重要か

多くのvoice agent demoは、人が自然に合いの手を入れ始めた瞬間に限界を見せる。実際の会話には短い相づち、ためらい、笑い、咳、背景音が常に混ざる。そうした要素をどう扱うかが、単に「話すsystem」と「会話に参加できるsystem」を分ける。

LiveKitの結果がproduction voice appでも再現されるなら、これはデモ品質以上の意味を持つ。誤ったinterruption判定が減ればturn breakが減り、体感latencyも改善し、downstream agent logicも不要な停止で乱されにくくなる。

出典: LiveKit X投稿 · LiveKit blog

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.