LiveKit, xAI TTS를 Inference에 추가해 20개 이상 언어와 무별도 키 경로 제공
Original: LiveKit adds xAI text-to-speech to LiveKit Inference View original →
LiveKit는 2026년 3월 16일 X를 통해 xAI의 Grok text-to-speech가 LiveKit Inference 안에서 사용 가능해졌다고 밝혔다. 게시물은 이 통합을 low-latency streaming, telephony readiness, multilingual 지원을 갖춘 production-ready 음성 agent 경로로 소개한다.
연결된 LiveKit 문서는 구현 세부사항을 더 분명히 보여준다. 문서에 따르면 xAI TTS는 LiveKit Agents에서 LiveKit Inference와 직접 연결용 xAI plugin 두 방식으로 제공된다. 관리형 경로에서는 개발자가 별도의 xAI API key를 따로 준비하지 않고도 xai/tts-1 모델을 사용할 수 있어, 이미 LiveKit 기반 agent stack을 운영 중인 팀의 초기 진입 비용을 낮춘다.
LiveKit는 이 모델이 English, Japanese, Korean, Chinese, Hindi, Portuguese, Spanish, Turkish, Vietnamese 등을 포함한 20개 이상 언어를 지원한다고 설명한다. 문서 예시는 개발자가 AgentSession 안에서 voice를 직접 지정하고, 필요하면 language와 추가 파라미터도 inference TTS 클래스로 넘길 수 있음을 보여준다. 즉 단순 래퍼가 아니라 LiveKit agent framework 내부의 정식 구성요소로 다루고 있다는 뜻이다.
직접 제어가 필요한 팀을 위한 경로도 있다. LiveKit는 XAI_API_KEY와 livekit-agents[xai] 패키지를 사용하는 별도 plugin 방식을 함께 문서화했다. 이는 편의성이 중요한 팀은 LiveKit Inference를, 자체 인증·과금·배포 제어가 필요한 팀은 직접 xAI 경로를 선택할 수 있다는 의미다.
이번 업데이트의 의미는 단순히 TTS 커넥터 하나가 늘어난 데 그치지 않는다. 음성 agents는 점점 더 multimodal해지고, 더 많은 언어를 다루며, 전화 시스템과 실시간 애플리케이션 흐름에 더 깊게 통합되고 있다. LiveKit가 xAI TTS를 Inference에 넣었다는 것은 개발자가 오디오 파이프라인을 처음부터 다시 짜지 않고도 또 하나의 frontier-model 공급자를 그 스택에 연결할 수 있게 됐다는 뜻이다.
Related Articles
2026년 3월 9일 LocalLLaMA에서는 Fish Audio S2가 fine-grained inline control, multilingual 지원, SGLang 기반 streaming stack을 함께 제시한 점이 주목을 받았다.
Together AI는 March 12, 2026에 real-time voice agent용 one-cloud stack을 공개한다고 밝혔다. 공개 자료에는 under-500ms latency, 25+ region 확장, 그리고 voice-agent deployment에서 time-to-first-64-tokens를 77ms까지 낮춘 kernel 최적화 사례가 포함돼 있다.
Kitten TTS v0.8의 Show HN 글은 15M~80M ONNX 모델, 25MB급 배포 크기, CPU 중심 설계로 관심을 모았고, 실사용 품질과 데이터 출처에 대한 질문도 함께 끌어냈다.
Comments (0)
No comments yet. Be the first to comment!