xAI、2分以内で声のクローンを作れるVoice Cloning APIをリリース

xAI APIを通じてVoice Cloningが正式リリース

xAIは2026年5月1日、自社APIを通じて音声クローン機能Voice Cloningを正式にリリースした。短い音声録音から2分以内にカスタムボイスを作成できるほか、28言語・80種以上の事前構築済み音声ライブラリからも選択可能で、音声エージェント、オーディオブック、ゲームキャラクターなど幅広い用途に活用できる。

2段階の音声所有権検証プロセス

すべてのカスタムボイス作成には2段階の検証プロセスが必要だ。まず、ユーザーが検証フレーズを読み上げ、音声認識エンジンがリアルタイムで照合する。次に話者埋め込みが計算され、同一人物であることを確認することで、既存の録音や他者の声のクローン化を防止する。

28言語・80種以上の音声ライブラリ

Voice Libraryには28言語にわたる80種以上の音声が収録されており、開発者はxAIコンソールで事前にプレビュー・選択・管理できる。カスタムボイスはText to SpeechおよびVoice Agent APIに即座に適用でき、追加料金は発生しない。

主な活用シーン

音声エージェント: パーソナライズされたAIアシスタントや顧客サービスボット
オーディオブック: 著者本人の声でのコンテンツ配信
ゲーム: キャラクターごとの固有の声の実装

今回のリリースにより、xAIはGrokの音声機能エコシステムを大幅に拡張し、開発者に強力なパーソナライズツールを提供する。

AI X/Twitter 6d ago 1 min read

Grok、Gopuffの買い物体験へチャット・音声・画像モデルで進出

xAIはGopuffと個人向けショッピングアシスタントを作っていると明かした。注目点は、チャットだけでなく音声と画像モデルを購買体験に組み込む構成だ。

#xai #grok #gopuff

AI X/Twitter Mar 16, 2026 1 min read

xAI、Text-to-Speech APIを公開　streaming・speech tags・5つのvoiceを提供

xAIは2026年3月16日、GrokのText-to-Speech APIが利用可能になったと発表した。公式voiceドキュメントでは、このbeta APIが5つのvoice、inline speech tags、telephony向けcodec、low-latencyなWebSocket streamingを備えると説明している。

#xai #grok #text-to-speech

AI X/Twitter Apr 18, 2026 1 min read

Grok STT API、25+言語と1時間$0.10のbatch価格でvoice API市場に参入

重要なのは、xAIがGrok Voiceのstackをstandalone STT/TTS APIに切り出し、batch $0.10/hour、streaming $0.20/hourという価格を出した点だ。25+ languages、diarization、word-level timestampsでenterprise transcriptionを正面から狙う。

#xai #grok #speech-to-text