AI X/Twitter May 2, 2026 1 min read
xAI가 API를 통해 음성 복제 서비스 Voice Cloning을 정식 출시했다. 2분 이내에 개인 목소리를 복제하거나 28개 언어, 80개 이상의 사전 제작 음성에서 선택해 음성 에이전트·오디오북·게임 캐릭터에 즉시 적용할 수 있다.
xAI가 API를 통해 음성 복제 서비스 Voice Cloning을 정식 출시했다. 2분 이내에 개인 목소리를 복제하거나 28개 언어, 80개 이상의 사전 제작 음성에서 선택해 음성 에이전트·오디오북·게임 캐릭터에 즉시 적용할 수 있다.
LocalLLaMA가 이 글에 반응한 이유는 단순한 음성 데모가 아니었다. Qwen3-TTS를 로컬 실시간으로 돌리고, llama.cpp와 단어 단위 정렬까지 붙여 lip sync를 맞춘 구축 기록이 핵심이었다.
2026년 3월 r/LocalLLaMA에서 123 points와 25 comments를 얻은 `voxtral-voice-clone` 프로젝트는 Mistral의 Voxtral-4B-TTS-2603에 빠져 있던 codec encoder를 직접 학습해 `ref_audio` 기반 zero-shot voice cloning을 복구하려는 시도다.
Qwen3의 TTS 모델이 목소리를 1024차원 벡터로 인코딩해 성별·음높이·감정을 수학적으로 조작하는 보이스 임베딩 기능을 지원합니다. 경량 독립형 모델로 추출돼 HuggingFace에 공개됐습니다.
ByteDance가 얼굴 사진만으로 실제와 거의 동일한 목소리를 생성할 수 있는 Seedance 2.0 기능을 프라이버시 및 보안 우려로 긴급 중단했습니다. 이 기능은 사용자 승인 없이 개인의 목소리 특성을 정확하게 재현할 수 있어 딥페이크 사기와 신원 도용 위험을 제기했습니다.