Show HN: 500ms未満のレイテンシを持つ音声AIエージェントをゼロから構築
Original: Show HN: I built a sub-500ms latency voice agent from scratch View original →
400ms音声AI:何が重要か
開発者Nick Tikhonov氏がShow HNで122点を獲得したプロジェクトを公開しました。STT → LLM → TTSのフルパイプラインを含み、クリーンなバージインとプリコンピューテッドレスポンスなしで平均400msのエンドツーエンドレイテンシを達成した音声AIエージェントです。
パフォーマンス向上のカギ
- 意味的ターン終了検出: VADだけでは不十分。誰かが本当に話し終えたかを理解する意味的検出が必要
- ストリーミングは必須: STT → LLM → TTSはすべてストリーミングで処理する必要があります
- TTFTが最重要: Groqの約80msのtime-to-first-tokenが最大の性能向上をもたらしました
- 地理的配置: すべてのコンポーネントを同じ場所に配置することがプロンプト最適化より重要
コアループ
システムは本質的に「話す」と「聞く」の2つの状態間の遷移問題に帰結します。バージイン時の即時キャンセルとターン終了時の即時応答 — この2つの遷移がユーザー体験全体を決定します。
オープンソース公開
プロジェクトはGitHub上で「shuo」として公開されています。リアルタイム音声AIシステムを構築したい開発者に実用的なリファレンスを提供します。
Related Articles
IBMは2026 X-Force Threat Indexで、public-facing applicationsの悪用から始まる攻撃が前年比44%増えたと報告した。2025年に観測したincidentの40%はvulnerability exploitationが起点で、infostealerにより300,000件超のChatGPT credentialも流出したという。
Anthropicは2026年3月5日、Department of Warから供給網リスク指定の通知を受けたと発表した。対象範囲は限定的だと説明しつつ、法的争訟と移行支援を並行する方針を示している。
Anthropicは2026年3月5日に、理論上のLLM能力と実利用データを統合した observed exposure 指標を発表した。高露出職種で失業率の急上昇は見られない一方、若年層採用の減速を示唆する結果を示している。
Comments (0)
No comments yet. Be the first to comment!