Meituan LongCat 1.5、音声駆動アバター動画をMITモデルとして公開、検証競争の基準に
Original: Meituan Releases LongCat-Video-Avatar 1.5 as MIT Model View original →
アバター動画生成がモデルハブで検証可能に
音声に合わせて人物やキャラクターを動かすアバター生成は、閉じたデモから公開モデルの検証へ移りつつある。Gorden Sunは投稿で、LongCat-Video-Avatar 1.5を「音声駆動で動画を生成する」モデルとして紹介した。元の投稿はこちら。
プロジェクトページによると、LongCat-Video-Avatar 1.5はMeituan LongCat TeamがLongCat-Videoを土台に構築した表現力重視のアバターモデルだ。デモはリップシンク、歌唱、アニメーション、複数人物の相互作用に分かれており、1.0から1.5への更新では口形状の精度、長尺動画での同一性保持、対話的な場面の幅、8-step生成の速度が改善点として示されている。比較対象にはHeyGen、Kling Avatar 2.0、OmniHuman-1.5も挙げられている。
Hugging Faceのモデルカードでは、Diffusers、ONNX、Safetensors、Transformersのタグに加え、audio-text-to-video、audio-image-text-to-video、audio-driven-video-continuation、avatar、video-generationが付与されている。ライセンスはMITと表示され、Diffusersで使うための導入コードも掲載されているため、研究者や開発者が比較実験を始めやすい。
次の焦点は、公開性と利用リスクの扱いだ。プロジェクトページの倫理項目では、一部の画像や音声が能力実証のため実動画に由来すると説明され、生成物は学術目的とされている。一方でモデルカードは、機密性の高い用途や高リスク用途の前に正確性、安全性、公平性、プライバシー、コンテンツ安全を評価する責任を開発者に求める。独立検証で安定した表情、口の動き、推論速度が確認されれば、LongCat 1.5はオープンなアバター研究の基準点になり得る。
Related Articles
GoogleがI/O 2026(5月19日)で「世界モデル」Gemini Omniを発表した。Sora・Runwayなど既存のAI動画生成ツールと異なり、物理環境の因果関係を理解した上で自然言語の指示に応じてシーンを編集できる。VeoをGeminiアプリで置き換え、同日から提供開始となった。
Google DeepMindはGoogle I/O 2026にて、テキスト・画像・音声・動画などあらゆる入力から動画を生成するGemini Omniを発表した。GeminiのインテリジェンスとGoogleのメディア生成システムを統合し、GeminiアプリやYouTube Shortsで即日利用可能だ。
NVIDIA Labsが、最大1分・720p解像度の動画を生成できる2.6Bパラメータのオープンソース世界モデル「SANA-WM」を公開した。比較的小さなモデルサイズとオープンソース公開が動画生成研究のアクセシビリティを高める。
Comments (0)
No comments yet. Be the first to comment!