Together AI、リアルタイム Voice Agent向けone-cloud stackを公開

March 12, 2026、Together AIはXで、real-time voice agent向けのunified solutionを公開すると発表した。全pipelineをone cloud上で動かすというのが中心メッセージだ。speech-to-text、LLM、text-to-speechを複数のinfrastructure layerにまたがってつなぎ合わせる代わりに、production voice workload向けの単一runtimeを提供するという構図である。

Togetherの公開Voiceページは、その主張を運用面から具体化している。会社は、STT、LLM、TTS modelをco-located infrastructureで組み合わせ、end-to-end conversation latencyを500ms未満に抑えるとしている。さらに、25+ global regionsで数千の同時通話にautoscaleでき、dedicated GPU endpointには99.9% uptime SLAが付くと説明する。同じページではMiniMax、Rime、Deepgram、OpenAI、Cartesiaなどをsingle APIで扱えるとしており、複数vendorをまたぐ統合作業を減らす方向性も明確だ。

なぜinfrastructureが重要なのか

real-time voice productは、turn-takingが少し遅れるだけで体感品質が大きく落ちる。
分断されたpipelineはnetwork hop、運用複雑性、障害点を増やす。
voice workloadには低latencyだけでなく、burstyなcall需要に耐える予測可能なscalingが必要だ。

別の公式資料であるAI Native Conf announcementは、性能面の背景も示している。そこでTogetherは、あるleading real-time voice agent companyの従来NVIDIA B200 deploymentで281msのtime-to-first-64-tokensが発生していたと説明した。会社によれば、hand-optimized Megakernel implementationによりこれを77msまで下げ、unit economicsも7.2x改善したという。Togetherはこの結果を、hardware-software co-designが会話品質と運用コストに直結する証拠として提示している。

March 12のX postと公開product materialを合わせて見ると、Togetherはvoice-agent infrastructureを単なるAPIの寄せ集めではなく、垂直統合stackとして売り出していることが分かる。これは、多くのenterprise voice projectがmodel qualityそのものよりも、latency budget、reliability、そしてSTT・reasoning・TTSを一本のproduction pathにまとめる運用負荷で苦しんできたことと重なる。

残る論点は、開発者がどこまでflexibilityを求め、one-cloud platformのabstractionをどこまで受け入れるかだ。それでも今回のlaunchは、voiceがもはやmodel raceだけでなくinfrastructure raceでもあることを示しており、Togetherがlow-latency deploymentを差別化の中心に置こうとしているのは明らかだ。

Together AI、リアルタイム Voice Agent向けone-cloud stackを公開

なぜinfrastructureが重要なのか

Related Articles

Meta、AWS Graviton数千万コア採用　エージェントAIのCPU不足に照準

Google、ML投資の過半をCloudへ　Geminiが実験から本番運用へ

TPU 8tと8i、HNが見た本質は「学習用と推論用を分けたこと」

Comments (0)

Leave a Comment

Related Articles

Meta、AWS Graviton数千万コア採用　エージェントAIのCPU不足に照準

Google、ML投資の過半をCloudへ　Geminiが実験から本番運用へ
AI Apr 24, 2026 1 min read

TPU 8tと8i、HNが見た本質は「学習用と推論用を分けたこと」
AI Hacker News Apr 24, 2026 1 min read

なぜinfrastructureが重要なのか

Related Articles

Meta、AWS Graviton数千万コア採用 エージェントAIのCPU不足に照準

Google、ML投資の過半をCloudへ Geminiが実験から本番運用へ

TPU 8tと8i、HNが見た本質は「学習用と推論用を分けたこと」

Comments (0)

Leave a Comment

Meta、AWS Graviton数千万コア採用　エージェントAIのCPU不足に照準

Google、ML投資の過半をCloudへ　Geminiが実験から本番運用へ