ByteDance、3Bパラメータ統合マルチモーダルモデル「Lance」をオープンソース公開
Original: ByteDance Releases Lance: A 3B Unified Multimodal Model for Image and Video Generation View original →
画像・動画をひとつのモデルで
ByteDance Researchが、マルチモーダルタスクを単一アーキテクチャで処理する統合モデルLanceを公開した。パラメータ数は3Bで、Apache 2.0ライセンスのオープンソースとして提供される。
主な機能
Lanceはテキスト→画像(T2I)、テキスト→動画(T2V)、画像編集、動画編集、画像理解、動画理解という6つのコアタスクをひとつのモデルで実行する。動画生成は480p解像度で最大121フレームをサポートする。
ベンチマーク性能
DPGスコア84.67(7Bモデルと同等水準)、GenEval 0.90、VBench 85.11(テスト対象モデル中最高スコア)を記録。画像編集(GEdit 7.30)でも統合モデル中トップクラスの結果を残した。3Bという小規模パラメータでこれだけの性能を達成したことが注目を集めている。
入手方法
モデルの重みと推論スクリプトはGitHub(bytedance/Lance)およびHugging Face(bytedance-research/Lance)で公開されている。実行には40GB以上のVRAMが必要だ。r/LocalLLaMAでは600票以上の高評価を獲得し、ローカル環境でのマルチモーダルAI実装に関心を持つ開発者から注目されている。
Related Articles
重要なのは、open model陣営で長いcontextと実運用向けの二層構成が同時に出てくる例がまだ少ないことだ。DeepSeekは1M context、1.6T・49B Pro、284B・13B Flashという数字を一度に示した。
NVIDIAが4月28日に30BパラメータのマルチモーダルオープンモデルNemotron 3 Nano Omniを公開。視覚・音声・言語を単一モデルで処理し、同クラスオープンモデルより9倍高いスループットを実現。
アンドレイ・カルパシーがLLMにHTML形式で回答を構造化するよう指示しブラウザで開くという実践的なヒントを共有。テキストからマークダウン、HTML、インタラクティブな神経シミュレーションへと進化する人間とAIのインターフェースの将来像も提示した。
Comments (0)
No comments yet. Be the first to comment!