Together AI, 실시간 Voice Agent용 one-cloud stack 공개

March 12, 2026에 Together AI는 X를 통해 real-time voice agent를 위한 unified solution을 공개한다고 밝혔다. 전체 pipeline이 one cloud 위에서 동작한다는 것이 핵심 메시지다. 즉, speech-to-text, LLM, text-to-speech를 여러 인프라 계층에서 따로 이어 붙이는 대신, production voice workload를 겨냥한 단일 runtime을 제공하겠다는 의미다.

Together의 공개 Voice 페이지는 이 주장을 운영 관점에서 구체화한다. 회사는 STT, LLM, TTS 모델을 co-located infrastructure 위에서 결합해 ultra-low latency를 제공하며, end-to-end conversation latency를 500ms 이하로 유지한다고 설명한다. 또한 25+ global region에서 수천 개의 동시 통화를 autoscale할 수 있고, dedicated GPU endpoint에는 99.9% uptime SLA가 적용된다고 밝혔다. 같은 페이지에서는 MiniMax, Rime, Deepgram, OpenAI, Cartesia 같은 provider를 single API로 다룰 수 있다고 설명해, 복수 벤더를 조합하는 통합 부담을 줄이겠다는 방향도 드러낸다.

왜 인프라가 중요한가

실시간 voice product는 turn-taking이 조금만 느려져도 사용자 경험이 급격히 나빠진다.
분리된 pipeline은 network hop, 운영 복잡도, 장애 지점을 늘린다.
voice workload는 낮은 latency뿐 아니라 bursty call demand를 감당할 예측 가능한 확장성도 필요하다.

함께 공개된 AI Native Conf announcement는 성능 측면의 배경도 제공한다. 그 글에서 Together는 leading real-time voice agent company의 기존 NVIDIA B200 deployment가 281ms time-to-first-64-tokens를 기록하고 있었다고 설명했다. 회사에 따르면 hand-optimized Megakernel implementation은 이를 77ms까지 낮췄고, unit economics는 7.2x 개선됐다. Together는 이를 통해 hardware-software co-design이 conversational quality와 운영비에 직접적인 영향을 준다고 주장한다.

결과적으로 March 12 X post와 공개 제품 자료를 함께 보면, Together는 voice-agent infrastructure를 느슨한 API 묶음이 아니라 수직 통합된 stack으로 포지셔닝하고 있다. 이는 많은 enterprise voice project가 model quality 자체보다 latency budget, reliability, 그리고 STT·reasoning·TTS를 production path로 연결하는 운영 부담에서 좌초된다는 점과 맞닿아 있다.

남은 변수는 개발자가 얼마나 많은 flexibility를 원하고, one-cloud platform이 제공하는 abstraction을 얼마나 받아들일지다. 다만 이번 공개는 voice가 이제 model race 못지않게 infrastructure race가 되고 있음을 보여주며, Together는 low-latency deployment를 차별화의 중심에 두려는 모습이다.

Together AI, 실시간 Voice Agent용 one-cloud stack 공개

왜 인프라가 중요한가

Related Articles

Google, 머신러닝 투자 절반 이상을 클라우드로… Gemini 운영 단계 진입

학습용과 추론용을 갈랐다, TPU 8t·8i에 HN이 주목한 지점

Meta, AWS Graviton 수천만 코어 투입… 에이전트형 AI의 CPU 병목 공략

Comments (0)

Leave a Comment

Related Articles

Google, 머신러닝 투자 절반 이상을 클라우드로… Gemini 운영 단계 진입
AI Apr 24, 2026 1 min read

학습용과 추론용을 갈랐다, TPU 8t·8i에 HN이 주목한 지점
AI Hacker News Apr 24, 2026 1 min read

Meta, AWS Graviton 수천만 코어 투입… 에이전트형 AI의 CPU 병목 공략