Together AI, 실시간 Voice Agent용 one-cloud stack 공개

Original: Today, Together AI is launching a unified solution for building real-time voice agents with the entire pipeline running on one cloud. AI natives can now deploy voice apps for every use case at production scale. View original →

Read in other languages: English日本語
AI Mar 14, 2026 By Insights AI 1 min read Source

March 12, 2026에 Together AI는 X를 통해 real-time voice agent를 위한 unified solution을 공개한다고 밝혔다. 전체 pipeline이 one cloud 위에서 동작한다는 것이 핵심 메시지다. 즉, speech-to-text, LLM, text-to-speech를 여러 인프라 계층에서 따로 이어 붙이는 대신, production voice workload를 겨냥한 단일 runtime을 제공하겠다는 의미다.

Together의 공개 Voice 페이지는 이 주장을 운영 관점에서 구체화한다. 회사는 STT, LLM, TTS 모델을 co-located infrastructure 위에서 결합해 ultra-low latency를 제공하며, end-to-end conversation latency를 500ms 이하로 유지한다고 설명한다. 또한 25+ global region에서 수천 개의 동시 통화를 autoscale할 수 있고, dedicated GPU endpoint에는 99.9% uptime SLA가 적용된다고 밝혔다. 같은 페이지에서는 MiniMax, Rime, Deepgram, OpenAI, Cartesia 같은 provider를 single API로 다룰 수 있다고 설명해, 복수 벤더를 조합하는 통합 부담을 줄이겠다는 방향도 드러낸다.

왜 인프라가 중요한가

  • 실시간 voice product는 turn-taking이 조금만 느려져도 사용자 경험이 급격히 나빠진다.
  • 분리된 pipeline은 network hop, 운영 복잡도, 장애 지점을 늘린다.
  • voice workload는 낮은 latency뿐 아니라 bursty call demand를 감당할 예측 가능한 확장성도 필요하다.

함께 공개된 AI Native Conf announcement는 성능 측면의 배경도 제공한다. 그 글에서 Together는 leading real-time voice agent company의 기존 NVIDIA B200 deployment가 281ms time-to-first-64-tokens를 기록하고 있었다고 설명했다. 회사에 따르면 hand-optimized Megakernel implementation은 이를 77ms까지 낮췄고, unit economics는 7.2x 개선됐다. Together는 이를 통해 hardware-software co-design이 conversational quality와 운영비에 직접적인 영향을 준다고 주장한다.

결과적으로 March 12 X post와 공개 제품 자료를 함께 보면, Together는 voice-agent infrastructure를 느슨한 API 묶음이 아니라 수직 통합된 stack으로 포지셔닝하고 있다. 이는 많은 enterprise voice project가 model quality 자체보다 latency budget, reliability, 그리고 STT·reasoning·TTS를 production path로 연결하는 운영 부담에서 좌초된다는 점과 맞닿아 있다.

남은 변수는 개발자가 얼마나 많은 flexibility를 원하고, one-cloud platform이 제공하는 abstraction을 얼마나 받아들일지다. 다만 이번 공개는 voice가 이제 model race 못지않게 infrastructure race가 되고 있음을 보여주며, Together는 low-latency deployment를 차별화의 중심에 두려는 모습이다.

Share: Long

Related Articles

AI 3d ago 1 min read

Meta는 next-gen AI 확장에 custom silicon이 필수라며 Meta Training and Inference Accelerator(MTIA) 로드맵을 공개했다. 회사는 전통적인 chip cycle과 빠른 model architecture 변화의 간격을 줄이기 위해 2년 만에 4세대를 출시했다고 설명했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.