xAI、2分以内で声のクローンを作れるVoice Cloning APIをリリース
Original: xAI Launches Voice Cloning API: Create a Custom Voice in Under 2 Minutes View original →
xAI APIを通じてVoice Cloningが正式リリース
xAIは2026年5月1日、自社APIを通じて音声クローン機能Voice Cloningを正式にリリースした。短い音声録音から2分以内にカスタムボイスを作成できるほか、28言語・80種以上の事前構築済み音声ライブラリからも選択可能で、音声エージェント、オーディオブック、ゲームキャラクターなど幅広い用途に活用できる。
2段階の音声所有権検証プロセス
すべてのカスタムボイス作成には2段階の検証プロセスが必要だ。まず、ユーザーが検証フレーズを読み上げ、音声認識エンジンがリアルタイムで照合する。次に話者埋め込みが計算され、同一人物であることを確認することで、既存の録音や他者の声のクローン化を防止する。
28言語・80種以上の音声ライブラリ
Voice Libraryには28言語にわたる80種以上の音声が収録されており、開発者はxAIコンソールで事前にプレビュー・選択・管理できる。カスタムボイスはText to SpeechおよびVoice Agent APIに即座に適用でき、追加料金は発生しない。
主な活用シーン
- 音声エージェント: パーソナライズされたAIアシスタントや顧客サービスボット
- オーディオブック: 著者本人の声でのコンテンツ配信
- ゲーム: キャラクターごとの固有の声の実装
今回のリリースにより、xAIはGrokの音声機能エコシステムを大幅に拡張し、開発者に強力なパーソナライズツールを提供する。
Related Articles
xAIが自社APIを通じてVoice Cloningを正式リリース。短い音声録音から2分以内にカスタムボイスを作成できるほか、28言語・80種以上の事前構築済み音声ライブラリからも選択できる。
重要なのは、xAIがGrok Voiceのstackをstandalone STT/TTS APIに切り出し、batch $0.10/hour、streaming $0.20/hourという価格を出した点だ。25+ languages、diarization、word-level timestampsでenterprise transcriptionを正面から狙う。
xAIは2026年3月16日、GrokのText-to-Speech APIが利用可能になったと発表した。公式voiceドキュメントでは、このbeta APIが5つのvoice、inline speech tags、telephony向けcodec、low-latencyなWebSocket streamingを備えると説明している。
Comments (0)
No comments yet. Be the first to comment!