LiveKit、voice agent向けAdaptive Interruption Handlingを正式提供 VAD誤検知を緩和
Original: How can a voice agent tell when you’re actually interrupting it? VAD is too sensitive—laughs, “mm-hmm,” or a sneeze shouldn’t stop the agent. We trained an audio model for adaptive interruption handling so agents can distinguish real interruptions from noise. View original →
XでLiveKitが提示した問題
2026年3月19日、LiveKitはvoice agentの典型的な失敗を端的に説明した。VADが敏感すぎる、という点だ。笑い声、“mm-hmm”のようなbackchannel、くしゃみ、各種ノイズでagentが完全なbarge-inだと誤解して止まるべきではない。LiveKitはこの問題に対し、adaptive interruption handlingのためのaudio modelを学習したと述べた。
これは一見すると細かなUX改善に見えるが、実際にはconversation AIでもっとも難しいリアルタイム課題の一つであるturn takingに直結する。voice agentはユーザーを話し越しても不自然だし、逆に些細な音で止まりすぎてもすぐロボット的に感じられる。
LiveKit blogが加えた詳細
リンク先のblogによれば、Adaptive Interruption Handlingは現在LiveKit Agentsで一般提供されている。単純なVADだけに頼るのではなく、新しい仕組みはuser speechが検出された最初の数百msで別のaudio-based interruption modelを走らせる。LiveKitによれば、このmodelはwaveform shape、発話開始の強さとsharpness、signal duration、pitchやrhythmといったprosodic featureを見て、本当に新しいutteranceが始まったのかを判断する。
学習データについても同社は詳しく述べている。数百時間分のhuman-to-human conversationを集め、そこへさまざまなnoiseを混ぜることで現実の入力条件に近づけたという。さらに、このmodelはmultilingualで、学習時に明示的に見ていないlanguageにも一般化できるとしている。
benchmarkも具体的だ。LiveKitは500ms overlap speechで86% precision、100% recallを記録し、VAD由来のfalse-positive barge-inの51%を回避したという。真のinterruptionは64%のケースでVADより速く検出され、inferenceは30ms以下、interruptionを起こすまでに必要なmedian audioは216msだったと説明する。
運用面では、Python Agents v1.5.0+とTypeScript Agents v1.2.0+で標準有効化される。LiveKitはLiveKit Cloud上のagentなら追加コストなしで自動適用され、self-hosted利用者には全plan合計で月40,000件のinference requestを含めるとしている。
なぜ重要か
多くのvoice agent demoは、人が自然に合いの手を入れ始めた瞬間に限界を見せる。実際の会話には短い相づち、ためらい、笑い、咳、背景音が常に混ざる。そうした要素をどう扱うかが、単に「話すsystem」と「会話に参加できるsystem」を分ける。
LiveKitの結果がproduction voice appでも再現されるなら、これはデモ品質以上の意味を持つ。誤ったinterruption判定が減ればturn breakが減り、体感latencyも改善し、downstream agent logicも不要な停止で乱されにくくなる。
出典: LiveKit X投稿 · LiveKit blog
Related Articles
LiveKitはXで、xAIのGrok text-to-speechがLiveKit Inferenceで利用可能になったと発表した。low-latency streaming、telephony readiness、20超の言語対応に加え、LiveKitの文書では別のxAI API keyなしで`xai/tts-1`を使う方法と、`XAI_API_KEY`ベースのplugin経路が案内されている。
Kitten TTS v0.8は、CPUで動く15Mから80MのONNX音声モデルとしてHacker Newsで注目を集め、実運用性や学習データへの質問も呼び込んだ。
2026年3月17日にr/MachineLearningへ投稿されたClip to Grokスレッドは、クロール時点で56ポイントと20件のコメントを集めた。投稿者は、optimizer stepごとにdecoder weight rowをL2 clippingすることで、modular arithmetic benchmarkで18倍から66倍速いgeneralizationを得たと主張している。
Comments (0)
No comments yet. Be the first to comment!