Together AI、リアルタイム Voice Agent向けone-cloud stackを公開
Original: Today, Together AI is launching a unified solution for building real-time voice agents with the entire pipeline running on one cloud. AI natives can now deploy voice apps for every use case at production scale. View original →
March 12, 2026、Together AIはXで、real-time voice agent向けのunified solutionを公開すると発表した。全pipelineをone cloud上で動かすというのが中心メッセージだ。speech-to-text、LLM、text-to-speechを複数のinfrastructure layerにまたがってつなぎ合わせる代わりに、production voice workload向けの単一runtimeを提供するという構図である。
Togetherの公開Voiceページは、その主張を運用面から具体化している。会社は、STT、LLM、TTS modelをco-located infrastructureで組み合わせ、end-to-end conversation latencyを500ms未満に抑えるとしている。さらに、25+ global regionsで数千の同時通話にautoscaleでき、dedicated GPU endpointには99.9% uptime SLAが付くと説明する。同じページではMiniMax、Rime、Deepgram、OpenAI、Cartesiaなどをsingle APIで扱えるとしており、複数vendorをまたぐ統合作業を減らす方向性も明確だ。
なぜinfrastructureが重要なのか
- real-time voice productは、turn-takingが少し遅れるだけで体感品質が大きく落ちる。
- 分断されたpipelineはnetwork hop、運用複雑性、障害点を増やす。
- voice workloadには低latencyだけでなく、burstyなcall需要に耐える予測可能なscalingが必要だ。
別の公式資料であるAI Native Conf announcementは、性能面の背景も示している。そこでTogetherは、あるleading real-time voice agent companyの従来NVIDIA B200 deploymentで281msのtime-to-first-64-tokensが発生していたと説明した。会社によれば、hand-optimized Megakernel implementationによりこれを77msまで下げ、unit economicsも7.2x改善したという。Togetherはこの結果を、hardware-software co-designが会話品質と運用コストに直結する証拠として提示している。
March 12のX postと公開product materialを合わせて見ると、Togetherはvoice-agent infrastructureを単なるAPIの寄せ集めではなく、垂直統合stackとして売り出していることが分かる。これは、多くのenterprise voice projectがmodel qualityそのものよりも、latency budget、reliability、そしてSTT・reasoning・TTSを一本のproduction pathにまとめる運用負荷で苦しんできたことと重なる。
残る論点は、開発者がどこまでflexibilityを求め、one-cloud platformのabstractionをどこまで受け入れるかだ。それでも今回のlaunchは、voiceがもはやmodel raceだけでなくinfrastructure raceでもあることを示しており、Togetherがlow-latency deploymentを差別化の中心に置こうとしているのは明らかだ。
Related Articles
短い宣言文が広がった背景には、閉じたAPI依存をライセンス問題ではなくインフラ依存として捉える空気がある。
Metaはnext-gen AIの拡張にはcustom siliconが重要だとしてMeta Training and Inference Accelerator(MTIA)のロードマップを公開した。従来のchip cycleより速いmodel architectureの変化に対応するため、2年間で4世代を進めたと説明している。
MetaはMarch 11, 2026、今後2年でMTIA custom chipの4世代を開発・展開すると発表した。ranking、recommendation、GenAI inference workloadを支えるAI infrastructure戦略の中心にMTIAを据える構えだ。