Google DeepMind、Lyria 3を公開 — 写真・テキストから30秒AI音楽をリアルタイム生成
Original: Google DeepMind Launches Lyria 3: Generate 30-Second Music Tracks from Photos and Text View original →
概要
Google DeepMindは2026年2月18日、最新の音楽生成AIモデル「Lyria 3」をGeminiアプリに公開した。テキストプロンプトや画像を入力するだけで、ボーカルと歌詞を含む高品質な30秒のトラックをリアルタイムで生成できる。
主な機能
- マルチモーダル入力: テキストまたは写真から音楽を生成
- 自動歌詞・ボーカル生成: プロンプトに基づき歌詞とボーカルを自動生成
- スタイルコントロール: ジャンル、ボーカルスタイル、テンポの細かな調整が可能
- 多言語ボーカル: 英語、ドイツ語、スペイン語、フランス語、ヒンディー語、日本語、韓国語、ポルトガル語対応
- SynthIDウォーターマーク: AI生成音楽に自動的に透かしを挿入し、検出を可能にする
利用方法
Lyria 3はGeminiアプリでベータ公開中。Google AI ProおよびUltraユーザーが優先アクセス可能。開発者はGemini APIとGoogle AI Studioからプレビューアクセスできる。
安全性・倫理
生成されたすべてのトラックにはSynthIDウォーターマークが埋め込まれ、AI生成かどうかを検証できる。Geminiアプリでは、アップロードした音声ファイルのAI生成有無も確認可能だ。
Related Articles
Google DeepMindの新しい学習方式が重要なのは、データセンター境界そのものが最前線の制約になっているからだ。Decoupled DiLoCoは2-5Gbpsの広域回線上で米国4地域にまたがる12B Gemmaを学習し、従来の同期方式より20倍超高速で、平均精度64.1%と基準線64.4%にほぼ並んだ。
画像生成モデルが視覚理解の中心へ入ってきた。DeepMindはNano Banana ProベースのVision Bananaが、軽量なinstruction tuningだけでSegment Anything系やDepth Anything系と競り合い、複数の2D・3D課題でstate-of-the-artに達したと説明している。
HNがこのRAM shortage storyに反応した理由は、AI data center向けHBM需要がphones、laptops、handheldsの価格にもつながるという物理的な連鎖だった。
Comments (0)
No comments yet. Be the first to comment!