Together AI, 실시간 Voice Agent용 one-cloud stack 공개
Original: Today, Together AI is launching a unified solution for building real-time voice agents with the entire pipeline running on one cloud. AI natives can now deploy voice apps for every use case at production scale. View original →
March 12, 2026에 Together AI는 X를 통해 real-time voice agent를 위한 unified solution을 공개한다고 밝혔다. 전체 pipeline이 one cloud 위에서 동작한다는 것이 핵심 메시지다. 즉, speech-to-text, LLM, text-to-speech를 여러 인프라 계층에서 따로 이어 붙이는 대신, production voice workload를 겨냥한 단일 runtime을 제공하겠다는 의미다.
Together의 공개 Voice 페이지는 이 주장을 운영 관점에서 구체화한다. 회사는 STT, LLM, TTS 모델을 co-located infrastructure 위에서 결합해 ultra-low latency를 제공하며, end-to-end conversation latency를 500ms 이하로 유지한다고 설명한다. 또한 25+ global region에서 수천 개의 동시 통화를 autoscale할 수 있고, dedicated GPU endpoint에는 99.9% uptime SLA가 적용된다고 밝혔다. 같은 페이지에서는 MiniMax, Rime, Deepgram, OpenAI, Cartesia 같은 provider를 single API로 다룰 수 있다고 설명해, 복수 벤더를 조합하는 통합 부담을 줄이겠다는 방향도 드러낸다.
왜 인프라가 중요한가
- 실시간 voice product는 turn-taking이 조금만 느려져도 사용자 경험이 급격히 나빠진다.
- 분리된 pipeline은 network hop, 운영 복잡도, 장애 지점을 늘린다.
- voice workload는 낮은 latency뿐 아니라 bursty call demand를 감당할 예측 가능한 확장성도 필요하다.
함께 공개된 AI Native Conf announcement는 성능 측면의 배경도 제공한다. 그 글에서 Together는 leading real-time voice agent company의 기존 NVIDIA B200 deployment가 281ms time-to-first-64-tokens를 기록하고 있었다고 설명했다. 회사에 따르면 hand-optimized Megakernel implementation은 이를 77ms까지 낮췄고, unit economics는 7.2x 개선됐다. Together는 이를 통해 hardware-software co-design이 conversational quality와 운영비에 직접적인 영향을 준다고 주장한다.
결과적으로 March 12 X post와 공개 제품 자료를 함께 보면, Together는 voice-agent infrastructure를 느슨한 API 묶음이 아니라 수직 통합된 stack으로 포지셔닝하고 있다. 이는 많은 enterprise voice project가 model quality 자체보다 latency budget, reliability, 그리고 STT·reasoning·TTS를 production path로 연결하는 운영 부담에서 좌초된다는 점과 맞닿아 있다.
남은 변수는 개발자가 얼마나 많은 flexibility를 원하고, one-cloud platform이 제공하는 abstraction을 얼마나 받아들일지다. 다만 이번 공개는 voice가 이제 model race 못지않게 infrastructure race가 되고 있음을 보여주며, Together는 low-latency deployment를 차별화의 중심에 두려는 모습이다.
Related Articles
Google은 기업용 AI가 시범 운영을 지나 실제 운영 단계로 넘어갔다는 신호를 던졌다. 4월 22일 Cloud Next 글에서 고객 직접 API 호출이 분당 160억 토큰을 넘었고, 2026년 머신러닝 연산 투자 가운데 절반 이상이 클라우드 사업으로 향한다고 적었다.
HN은 TPU 8t·8i를 단순한 초대형 숫자 경쟁보다, 에이전트 시대에 학습용과 추론용 실리콘이 갈라지기 시작한 신호로 읽었다. 댓글도 전력 효율, 메모리 병목, 지연 시간 같은 운영 포인트에 더 오래 머물렀다.
Meta가 AWS Graviton 코어 수천만 개를 들여오며 AI 인프라 전쟁의 축을 GPU 밖으로 넓혔다. 회사는 에이전트형 AI가 계획 수립, 툴 호출, 데이터 이동 같은 CPU 집약 구간을 키우고 있다며 Graviton5를 핵심 조합으로 제시했다.
Comments (0)
No comments yet. Be the first to comment!