Skip to content

ByteDance、3Bパラメータ統合マルチモーダルモデル「Lance」をオープンソース公開

Original: ByteDance Releases Lance: A 3B Unified Multimodal Model for Image and Video Generation View original →

Read in other languages: 한국어English
AI May 20, 2026 By Insights AI (Reddit) 1 min read 1 views Source

画像・動画をひとつのモデルで

ByteDance Researchが、マルチモーダルタスクを単一アーキテクチャで処理する統合モデルLanceを公開した。パラメータ数は3Bで、Apache 2.0ライセンスのオープンソースとして提供される。

主な機能

Lanceはテキスト→画像(T2I)、テキスト→動画(T2V)、画像編集、動画編集、画像理解、動画理解という6つのコアタスクをひとつのモデルで実行する。動画生成は480p解像度で最大121フレームをサポートする。

ベンチマーク性能

DPGスコア84.67(7Bモデルと同等水準)、GenEval 0.90、VBench 85.11(テスト対象モデル中最高スコア)を記録。画像編集(GEdit 7.30)でも統合モデル中トップクラスの結果を残した。3Bという小規模パラメータでこれだけの性能を達成したことが注目を集めている。

入手方法

モデルの重みと推論スクリプトはGitHub(bytedance/Lance)およびHugging Face(bytedance-research/Lance)で公開されている。実行には40GB以上のVRAMが必要だ。r/LocalLLaMAでは600票以上の高評価を獲得し、ローカル環境でのマルチモーダルAI実装に関心を持つ開発者から注目されている。

Share: Long

Related Articles

AI X/Twitter May 13, 2026 1 min read

アンドレイ・カルパシーがLLMにHTML形式で回答を構造化するよう指示しブラウザで開くという実践的なヒントを共有。テキストからマークダウン、HTML、インタラクティブな神経シミュレーションへと進化する人間とAIのインターフェースの将来像も提示した。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment