Grok Imagine 1.5 Preview、APIで15秒動画と2K画像生成へ拡張
Original: Grok Imagine 1.5 Preview reaches API with video and image generation View original →
視覚生成が開発者APIになる
今回の変化は、デモではなくAPIとして使える点にある。Grokアカウントは6月3日、Grok Imagine 1.5 Previewについて“Try it today in the API”と投稿した。原文はXで確認できる。投稿には短い動画デモも付いている。
リンク先のxAIページは、Grok Imagineを画像・動画生成、編集、リスタイルを扱うAPIとして説明している。テキストから動画、画像から動画への変換に対応し、動画は最大15秒、画像は1リクエスト最大10枚、最大2K解像度まで生成できる。価格は画像あたり$0.02からとされ、コード例にはxAI SDKだけでなくOpenAI互換クライアントの使い方も載っている。
GrokとxAIのアカウントは、テキスト、音声、画像、動画モデルのAPI提供状況をXで頻繁に示している。今回の投稿は短いが、FxTwitterでは48時間以内の投稿として確認でき、3,100万回超の表示とデモ動画が付いていた。これは消費者向けの創作機能だけでなく、商品デモ、広告、バーチャル試着、商品配置のような業務フローに入るモデルとしての位置づけを示す。
xAIのページは、Artificial Analysisのテキスト動画ランキングでGrok Imagineを1位として掲載している。ただし、この種の順位は実際の用途、待ち時間、価格、入力制約で評価が変わる。次に見るべきなのは、コンテンツ安全ポリシー、権利条件、15秒動画を大量生成したときの品質維持、そして本番利用での遅延とコストだ。
Related Articles
重要なのは、xAIがGrok Voiceのstackをstandalone STT/TTS APIに切り出し、batch $0.10/hour、streaming $0.20/hourという価格を出した点だ。25+ languages、diarization、word-level timestampsでenterprise transcriptionを正面から狙う。
xAIが自社APIを通じてVoice Cloningを正式リリース。短い音声録音から2分以内にカスタムボイスを作成できるほか、28言語・80種以上の事前構築済み音声ライブラリからも選択できる。
xAIが企業向けカスタマーサポートに特化した音声エージェント「Grok Voice Think Fast 1.0」を発表。低遅延の応答と自然な会話フローを重視した製品設計となっている。