xAI, 2분 만에 목소리 복제하는 Voice Cloning API 출시
Original: xAI Launches Voice Cloning API: Create a Custom Voice in Under 2 Minutes View original →
xAI API에서 Voice Cloning 공개 출시
xAI가 2026년 5월 1일 자사 API를 통해 음성 복제 기능 Voice Cloning을 정식 출시했다. 사용자는 2분 이내에 개인 목소리를 복제하거나, 28개 언어로 구성된 80개 이상의 사전 제작 음성 라이브러리에서 선택해 음성 에이전트, 오디오북, 게임 캐릭터 등 다양한 애플리케이션에 적용할 수 있다.
2단계 보안 검증 프로세스
모든 커스텀 음성은 두 단계 인증 과정을 거친다. 사용자가 검증 문구를 읽으면 음성-텍스트 엔진이 실시간으로 대조하고, 이후 화자 임베딩을 계산해 동일인임을 확인한다. 이를 통해 기존 녹음이나 타인의 목소리 복제를 방지한다.
80개 이상의 음성 라이브러리
사전 구축된 Voice Library에는 28개 언어, 80개 이상의 음성이 포함되어 있다. 개발자는 xAI 콘솔에서 음성을 미리 듣고 선택·관리할 수 있으며, 커스텀 음성을 Text to Speech 및 Voice Agent API에 즉시 적용할 수 있다. 커스텀 음성 사용은 별도 과금이 없다.
주요 활용 분야
- 음성 에이전트: 개인화된 AI 어시스턴트 및 고객 서비스 봇
- 오디오북: 저자의 실제 목소리로 콘텐츠 제작
- 게임: 캐릭터별 고유한 목소리 구현
이번 출시로 xAI는 Grok의 음성 기능 생태계를 대폭 확장하며 개발자에게 강력한 개인화 도구를 제공한다.
Related Articles
xAI가 API를 통해 음성 복제 서비스 Voice Cloning을 정식 출시했다. 2분 이내에 개인 목소리를 복제하거나 28개 언어, 80개 이상의 사전 제작 음성에서 선택해 음성 에이전트·오디오북·게임 캐릭터에 즉시 적용할 수 있다.
왜 중요한가: xAI가 Grok Voice stack을 standalone STT/TTS API로 내며 batch $0.10/hour, streaming $0.20/hour 가격을 제시했다. 25+ languages, diarization, word-level timestamps는 call center와 meeting transcription 시장을 직접 겨냥한다.
xAI는 2026년 3월 16일 Grok의 Text-to-Speech API가 공개됐다고 밝혔다. xAI 공식 voice 문서는 beta API가 5개 voice, inline speech tags, telephony-friendly codec, low-latency WebSocket streaming 모드를 지원한다고 설명한다.
Comments (0)
No comments yet. Be the first to comment!