Together AI, 실시간 Voice Agent용 one-cloud stack 공개
Original: Today, Together AI is launching a unified solution for building real-time voice agents with the entire pipeline running on one cloud. AI natives can now deploy voice apps for every use case at production scale. View original →
March 12, 2026에 Together AI는 X를 통해 real-time voice agent를 위한 unified solution을 공개한다고 밝혔다. 전체 pipeline이 one cloud 위에서 동작한다는 것이 핵심 메시지다. 즉, speech-to-text, LLM, text-to-speech를 여러 인프라 계층에서 따로 이어 붙이는 대신, production voice workload를 겨냥한 단일 runtime을 제공하겠다는 의미다.
Together의 공개 Voice 페이지는 이 주장을 운영 관점에서 구체화한다. 회사는 STT, LLM, TTS 모델을 co-located infrastructure 위에서 결합해 ultra-low latency를 제공하며, end-to-end conversation latency를 500ms 이하로 유지한다고 설명한다. 또한 25+ global region에서 수천 개의 동시 통화를 autoscale할 수 있고, dedicated GPU endpoint에는 99.9% uptime SLA가 적용된다고 밝혔다. 같은 페이지에서는 MiniMax, Rime, Deepgram, OpenAI, Cartesia 같은 provider를 single API로 다룰 수 있다고 설명해, 복수 벤더를 조합하는 통합 부담을 줄이겠다는 방향도 드러낸다.
왜 인프라가 중요한가
- 실시간 voice product는 turn-taking이 조금만 느려져도 사용자 경험이 급격히 나빠진다.
- 분리된 pipeline은 network hop, 운영 복잡도, 장애 지점을 늘린다.
- voice workload는 낮은 latency뿐 아니라 bursty call demand를 감당할 예측 가능한 확장성도 필요하다.
함께 공개된 AI Native Conf announcement는 성능 측면의 배경도 제공한다. 그 글에서 Together는 leading real-time voice agent company의 기존 NVIDIA B200 deployment가 281ms time-to-first-64-tokens를 기록하고 있었다고 설명했다. 회사에 따르면 hand-optimized Megakernel implementation은 이를 77ms까지 낮췄고, unit economics는 7.2x 개선됐다. Together는 이를 통해 hardware-software co-design이 conversational quality와 운영비에 직접적인 영향을 준다고 주장한다.
결과적으로 March 12 X post와 공개 제품 자료를 함께 보면, Together는 voice-agent infrastructure를 느슨한 API 묶음이 아니라 수직 통합된 stack으로 포지셔닝하고 있다. 이는 많은 enterprise voice project가 model quality 자체보다 latency budget, reliability, 그리고 STT·reasoning·TTS를 production path로 연결하는 운영 부담에서 좌초된다는 점과 맞닿아 있다.
남은 변수는 개발자가 얼마나 많은 flexibility를 원하고, one-cloud platform이 제공하는 abstraction을 얼마나 받아들일지다. 다만 이번 공개는 voice가 이제 model race 못지않게 infrastructure race가 되고 있음을 보여주며, Together는 low-latency deployment를 차별화의 중심에 두려는 모습이다.
Related Articles
Meta는 next-gen AI 확장에 custom silicon이 필수라며 Meta Training and Inference Accelerator(MTIA) 로드맵을 공개했다. 회사는 전통적인 chip cycle과 빠른 model architecture 변화의 간격을 줄이기 위해 2년 만에 4세대를 출시했다고 설명했다.
Meta는 2026년 3월 11일 MTIA 300부터 MTIA 500까지 이어지는 in-house AI chip 로드맵을 공개했다. 회사는 custom silicon을 통해 ranking, recommendation, 그리고 특히 GenAI inference의 비용 구조를 Meta 규모에 맞게 최적화하려 하고 있다.
Anthropic은 2026년 3월 10일 시드니가 아시아태평양 네 번째 거점이 될 것이라고 밝혔다. 회사는 ANZ 지역 수요 증가를 이유로 enterprise·startup·research 고객 지원과 data residency 수요에 맞춘 현지 compute 검토를 병행하겠다고 했다.
Comments (0)
No comments yet. Be the first to comment!