AI X/Twitter May 2, 2026 1 min read
xAIが自社APIを通じてVoice Cloningを正式リリース。短い音声録音から2分以内にカスタムボイスを作成できるほか、28言語・80種以上の事前構築済み音声ライブラリからも選択できる。
xAIが自社APIを通じてVoice Cloningを正式リリース。短い音声録音から2分以内にカスタムボイスを作成できるほか、28言語・80種以上の事前構築済み音声ライブラリからも選択できる。
LocalLLaMAが反応したのは単なる音声デモではなかった。Qwen3-TTSをローカル実時間で動かし、llama.cppと単語単位アラインメントまで組み合わせた実装記録だった。
2026年3月にr/LocalLLaMAで123 pointsと25 commentsを集めた `voxtral-voice-clone` は、MistralのVoxtral-4B-TTS-2603から欠けていたcodec encoderを学習し、`ref_audio` を使う zero-shot voice cloning を復元しようとするプロジェクトだ。
Qwen3のTTSモデルは声を1024次元ベクトルにエンコードし、性別変換・音高調整・感情空間生成などの数学的な音声操作を可能にします。軽量なスタンドアロンエンコーダーとしてHuggingFaceで公開されています。