Together AI、リアルタイム Voice Agent向けone-cloud stackを公開
Original: Today, Together AI is launching a unified solution for building real-time voice agents with the entire pipeline running on one cloud. AI natives can now deploy voice apps for every use case at production scale. View original →
March 12, 2026、Together AIはXで、real-time voice agent向けのunified solutionを公開すると発表した。全pipelineをone cloud上で動かすというのが中心メッセージだ。speech-to-text、LLM、text-to-speechを複数のinfrastructure layerにまたがってつなぎ合わせる代わりに、production voice workload向けの単一runtimeを提供するという構図である。
Togetherの公開Voiceページは、その主張を運用面から具体化している。会社は、STT、LLM、TTS modelをco-located infrastructureで組み合わせ、end-to-end conversation latencyを500ms未満に抑えるとしている。さらに、25+ global regionsで数千の同時通話にautoscaleでき、dedicated GPU endpointには99.9% uptime SLAが付くと説明する。同じページではMiniMax、Rime、Deepgram、OpenAI、Cartesiaなどをsingle APIで扱えるとしており、複数vendorをまたぐ統合作業を減らす方向性も明確だ。
なぜinfrastructureが重要なのか
- real-time voice productは、turn-takingが少し遅れるだけで体感品質が大きく落ちる。
- 分断されたpipelineはnetwork hop、運用複雑性、障害点を増やす。
- voice workloadには低latencyだけでなく、burstyなcall需要に耐える予測可能なscalingが必要だ。
別の公式資料であるAI Native Conf announcementは、性能面の背景も示している。そこでTogetherは、あるleading real-time voice agent companyの従来NVIDIA B200 deploymentで281msのtime-to-first-64-tokensが発生していたと説明した。会社によれば、hand-optimized Megakernel implementationによりこれを77msまで下げ、unit economicsも7.2x改善したという。Togetherはこの結果を、hardware-software co-designが会話品質と運用コストに直結する証拠として提示している。
March 12のX postと公開product materialを合わせて見ると、Togetherはvoice-agent infrastructureを単なるAPIの寄せ集めではなく、垂直統合stackとして売り出していることが分かる。これは、多くのenterprise voice projectがmodel qualityそのものよりも、latency budget、reliability、そしてSTT・reasoning・TTSを一本のproduction pathにまとめる運用負荷で苦しんできたことと重なる。
残る論点は、開発者がどこまでflexibilityを求め、one-cloud platformのabstractionをどこまで受け入れるかだ。それでも今回のlaunchは、voiceがもはやmodel raceだけでなくinfrastructure raceでもあることを示しており、Togetherがlow-latency deploymentを差別化の中心に置こうとしているのは明らかだ。
Related Articles
Metaはnext-gen AIの拡張にはcustom siliconが重要だとしてMeta Training and Inference Accelerator(MTIA)のロードマップを公開した。従来のchip cycleより速いmodel architectureの変化に対応するため、2年間で4世代を進めたと説明している。
Metaは2026年3月11日、MTIA 300からMTIA 500まで続くin-house AI chipのロードマップを公表した。Metaはcustom siliconを通じて、ranking、recommendation、そして特にGenAI inferenceのコスト構造を自社規模に最適化しようとしている。
Anthropicは2026年3月10日、シドニーがアジア太平洋で4番目のオフィスになると発表した。ANZ地域でのenterprise・startup・research需要に対応するとともに、data residency要件を見据えた現地compute拡張も検討している。
Comments (0)
No comments yet. Be the first to comment!