ByteDance、3Bパラメータ統合マルチモーダルモデル「Lance」をオープンソース公開

画像・動画をひとつのモデルで

ByteDance Researchが、マルチモーダルタスクを単一アーキテクチャで処理する統合モデルLanceを公開した。パラメータ数は3Bで、Apache 2.0ライセンスのオープンソースとして提供される。

主な機能

Lanceはテキスト→画像（T2I）、テキスト→動画（T2V）、画像編集、動画編集、画像理解、動画理解という6つのコアタスクをひとつのモデルで実行する。動画生成は480p解像度で最大121フレームをサポートする。

ベンチマーク性能

DPGスコア84.67（7Bモデルと同等水準）、GenEval 0.90、VBench 85.11（テスト対象モデル中最高スコア）を記録。画像編集（GEdit 7.30）でも統合モデル中トップクラスの結果を残した。3Bという小規模パラメータでこれだけの性能を達成したことが注目を集めている。

入手方法

モデルの重みと推論スクリプトはGitHub（bytedance/Lance）およびHugging Face（bytedance-research/Lance）で公開されている。実行には40GB以上のVRAMが必要だ。r/LocalLLaMAでは600票以上の高評価を獲得し、ローカル環境でのマルチモーダルAI実装に関心を持つ開発者から注目されている。

AI Reddit Mar 14, 2026 1 min read

r/singularity、Meituan の 8-step open-source image editing model LongCat-Image-Edit-Turbo に注目

r/singularityは、Meituan の LongCat-Image-Edit-Turbo を取り上げた。これは 8 NFEs で high-quality な結果をうたう distilled open-source image editor で、Apache 2.0 の Hugging Face model、公開された arXiv report、そして benchmark framing への community の検証が同時に走っている。

#meituan #image-editing #open-source

AI X/Twitter Apr 25, 2026 1 min read