Show HN: 500ms未満のレイテンシを持つ音声AIエージェントをゼロから構築
Original: Show HN: I built a sub-500ms latency voice agent from scratch View original →
400ms音声AI:何が重要か
開発者Nick Tikhonov氏がShow HNで122点を獲得したプロジェクトを公開しました。STT → LLM → TTSのフルパイプラインを含み、クリーンなバージインとプリコンピューテッドレスポンスなしで平均400msのエンドツーエンドレイテンシを達成した音声AIエージェントです。
パフォーマンス向上のカギ
- 意味的ターン終了検出: VADだけでは不十分。誰かが本当に話し終えたかを理解する意味的検出が必要
- ストリーミングは必須: STT → LLM → TTSはすべてストリーミングで処理する必要があります
- TTFTが最重要: Groqの約80msのtime-to-first-tokenが最大の性能向上をもたらしました
- 地理的配置: すべてのコンポーネントを同じ場所に配置することがプロンプト最適化より重要
コアループ
システムは本質的に「話す」と「聞く」の2つの状態間の遷移問題に帰結します。バージイン時の即時キャンセルとターン終了時の即時応答 — この2つの遷移がユーザー体験全体を決定します。
オープンソース公開
プロジェクトはGitHub上で「shuo」として公開されています。リアルタイム音声AIシステムを構築したい開発者に実用的なリファレンスを提供します。
Related Articles
HNで400 comments超まで伸びた理由はnostalgiaではなく、AIが整ったdraftを出せる時代にstudent thinkingをどう証明するかだった。
TNWは、GoogleがMarvellと2種類のAI chipを協議していると報じた。signed contractはまだないが、memory processing unitとinference向けTPUの構想は、AIコストの重心がtrainingからinferenceへ移ったことを示す。
Axiosによると、NSAはAnthropicのMythos Previewを利用している。一方でPentagon幹部は同社をsupply-chain riskと見ており、AI safetyの制限と連邦政府のcybersecurity需要が衝突している。
Comments (0)
No comments yet. Be the first to comment!