腐食中
Show HN: 500ms未満のレイテンシを持つ音声AIエージェントをゼロから構築
Original: Show HN: I built a sub-500ms latency voice agent from scratch View original →
400ms音声AI:何が重要か
開発者Nick Tikhonov氏がShow HNで122点を獲得したプロジェクトを公開しました。STT → LLM → TTSのフルパイプラインを含み、クリーンなバージインとプリコンピューテッドレスポンスなしで平均400msのエンドツーエンドレイテンシを達成した音声AIエージェントです。
パフォーマンス向上のカギ
- 意味的ターン終了検出: VADだけでは不十分。誰かが本当に話し終えたかを理解する意味的検出が必要
- ストリーミングは必須: STT → LLM → TTSはすべてストリーミングで処理する必要があります
- TTFTが最重要: Groqの約80msのtime-to-first-tokenが最大の性能向上をもたらしました
- 地理的配置: すべてのコンポーネントを同じ場所に配置することがプロンプト最適化より重要
コアループ
システムは本質的に「話す」と「聞く」の2つの状態間の遷移問題に帰結します。バージイン時の即時キャンセルとターン終了時の即時応答 — この2つの遷移がユーザー体験全体を決定します。
オープンソース公開
プロジェクトはGitHub上で「shuo」として公開されています。リアルタイム音声AIシステムを構築したい開発者に実用的なリファレンスを提供します。
Related Articles
AI Hacker News 3d ago 1 min read
HNで注目されたのは、AIがまだ驚きを生むかではなく、インフラ投資の計算が持続するかだった。Ed Zitronの論考は減速論を資金調達と売上成長の問題として読む。
AI X/Twitter May 13, 2026 1 min read
アンドレイ・カルパシーがLLMにHTML形式で回答を構造化するよう指示しブラウザで開くという実践的なヒントを共有。テキストからマークダウン、HTML、インタラクティブな神経シミュレーションへと進化する人間とAIのインターフェースの将来像も提示した。
AI May 17, 2026 1 min read
GoogleのThreat Intelligence Groupが、AIが開発した初の既知ゼロデイエクスプロイトを実使用前に検出した。人気のオープンソース管理ツールの2FAをバイパスするPythonスクリプトで、大規模攻撃が開始される前に阻止された。