Meituan LongCat 1.5、音声駆動アバター動画をMITモデルとして公開、検証競争の基準に

アバター動画生成がモデルハブで検証可能に

音声に合わせて人物やキャラクターを動かすアバター生成は、閉じたデモから公開モデルの検証へ移りつつある。Gorden Sunは投稿で、LongCat-Video-Avatar 1.5を「音声駆動で動画を生成する」モデルとして紹介した。元の投稿はこちら。

プロジェクトページによると、LongCat-Video-Avatar 1.5はMeituan LongCat TeamがLongCat-Videoを土台に構築した表現力重視のアバターモデルだ。デモはリップシンク、歌唱、アニメーション、複数人物の相互作用に分かれており、1.0から1.5への更新では口形状の精度、長尺動画での同一性保持、対話的な場面の幅、8-step生成の速度が改善点として示されている。比較対象にはHeyGen、Kling Avatar 2.0、OmniHuman-1.5も挙げられている。

Hugging Faceのモデルカードでは、Diffusers、ONNX、Safetensors、Transformersのタグに加え、audio-text-to-video、audio-image-text-to-video、audio-driven-video-continuation、avatar、video-generationが付与されている。ライセンスはMITと表示され、Diffusersで使うための導入コードも掲載されているため、研究者や開発者が比較実験を始めやすい。

次の焦点は、公開性と利用リスクの扱いだ。プロジェクトページの倫理項目では、一部の画像や音声が能力実証のため実動画に由来すると説明され、生成物は学術目的とされている。一方でモデルカードは、機密性の高い用途や高リスク用途の前に正確性、安全性、公平性、プライバシー、コンテンツ安全を評価する責任を開発者に求める。独立検証で安定した表情、口の動き、推論速度が確認されれば、LongCat 1.5はオープンなアバター研究の基準点になり得る。

Meituan LongCat 1.5、音声駆動アバター動画をMITモデルとして公開、検証競争の基準に

アバター動画生成がモデルハブで検証可能に

Related Articles

Meta Muse Image、InstagramとWhatsAppへ入るtool-using画像生成

NVIDIA MOTIVE、motion重視のclip選別で74.1% preferenceを獲得

Klingが$2.8B調達、AI動画競争に$18B評価と香港IPOの現実味