Skip to content

ByteDance, 3B 통합 멀티모달 모델 'Lance' 오픈소스 공개

Original: ByteDance Releases Lance: A 3B Unified Multimodal Model for Image and Video Generation View original →

Read in other languages: English日本語
AI May 20, 2026 By Insights AI (Reddit) 1 min read Source

이미지·영상을 하나로

ByteDance Research가 이미지와 영상의 생성, 편집, 이해를 단일 아키텍처로 처리하는 멀티모달 모델 Lance를 공개했다. 모델 크기는 3B 파라미터이며 Apache 2.0 라이선스로 오픈소스로 제공된다.

주요 기능

Lance는 텍스트→이미지(T2I), 텍스트→영상(T2V), 이미지 편집, 영상 편집, 이미지 이해, 영상 이해 등 6가지 핵심 태스크를 하나의 모델로 수행한다. 영상 생성은 480p 해상도로 최대 121프레임까지 지원한다.

벤치마크 성과

Lance는 DPG(이미지 생성) 84.67점, GenEval 0.90, VBench(영상 생성) 85.11점을 기록했다. 특히 영상 생성 벤치마크인 VBench에서는 테스트된 모델 중 최고 점수를 달성했으며, 이미지 편집(GEdit 7.30)에서도 통합 모델 중 최상위권에 올랐다.

기술 사양

Qwen2.5-VL-3B-Instruct를 기반으로 128개 A100 GPU로 학습됐다. 실행에는 40GB 이상의 VRAM이 필요하며, GPU 없이는 동작하지 않는다. GitHub 및 Hugging Face(bytedance-research/Lance)에서 모델 가중치와 추론 스크립트를 받을 수 있다.

3B라는 소형 파라미터로 멀티모달 통합 처리를 달성한 Lance는 로컬 환경에서 멀티모달 AI를 구동하려는 개발자와 연구자에게 주목받고 있다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment