Show HN: 500ms未満のレイテンシを持つ音声AIエージェントをゼロから構築

400ms音声AI：何が重要か

開発者Nick Tikhonov氏がShow HNで122点を獲得したプロジェクトを公開しました。STT → LLM → TTSのフルパイプラインを含み、クリーンなバージインとプリコンピューテッドレスポンスなしで平均400msのエンドツーエンドレイテンシを達成した音声AIエージェントです。

パフォーマンス向上のカギ

意味的ターン終了検出: VADだけでは不十分。誰かが本当に話し終えたかを理解する意味的検出が必要
ストリーミングは必須: STT → LLM → TTSはすべてストリーミングで処理する必要があります
TTFTが最重要: Groqの約80msのtime-to-first-tokenが最大の性能向上をもたらしました
地理的配置: すべてのコンポーネントを同じ場所に配置することがプロンプト最適化より重要

コアループ

システムは本質的に「話す」と「聞く」の2つの状態間の遷移問題に帰結します。バージイン時の即時キャンセルとターン終了時の即時応答 — この2つの遷移がユーザー体験全体を決定します。

オープンソース公開

プロジェクトはGitHub上で「shuo」として公開されています。リアルタイム音声AIシステムを構築したい開発者に実用的なリファレンスを提供します。

AI Hacker News 4d ago 1 min read

OpenAIとHugging Faceの評価事故、焦点はcyber benchmarkの隔離設計へ

モデル評価中のセキュリティ事故をめぐり、HNでは侵害そのものよりも評価環境の設計に議論が集まった。危険な能力を測るテストは、もはや単なる実験ではない。

#openai #huggingface #cybersecurity

AI 5d ago 1 min read

Cosmos 3 Edge、4B世界モデルでphysical AIをedgeへ寄せる

NVIDIAのSIGGRAPH発表は、physical AIをクラウド上のデモからedge配備へ寄せる内容だった。4BのCosmos 3 Edge、Synthetic Video Detector NIM、Nemotron 3 Ultraを使うDGX Station agent stackが中心だ。

#nvidia #cosmos #physical-ai

AI X/Twitter 6d ago 1 min read

Databricks、Genie One・ZeroOps・Unity AI Gatewayをデータエージェント基盤に統合

DatabricksはData + AI Summit 2026の主要製品を5分動画にまとめた。Genie One、Ontology、App Builder、ZeroOps、LTAP、Unity AI Gatewayが同じ企業AI基盤として示された。

#databricks #ai-agents #data-platform