ByteDance, 3B 통합 멀티모달 모델 'Lance' 오픈소스 공개
Original: ByteDance Releases Lance: A 3B Unified Multimodal Model for Image and Video Generation View original →
이미지·영상을 하나로
ByteDance Research가 이미지와 영상의 생성, 편집, 이해를 단일 아키텍처로 처리하는 멀티모달 모델 Lance를 공개했다. 모델 크기는 3B 파라미터이며 Apache 2.0 라이선스로 오픈소스로 제공된다.
주요 기능
Lance는 텍스트→이미지(T2I), 텍스트→영상(T2V), 이미지 편집, 영상 편집, 이미지 이해, 영상 이해 등 6가지 핵심 태스크를 하나의 모델로 수행한다. 영상 생성은 480p 해상도로 최대 121프레임까지 지원한다.
벤치마크 성과
Lance는 DPG(이미지 생성) 84.67점, GenEval 0.90, VBench(영상 생성) 85.11점을 기록했다. 특히 영상 생성 벤치마크인 VBench에서는 테스트된 모델 중 최고 점수를 달성했으며, 이미지 편집(GEdit 7.30)에서도 통합 모델 중 최상위권에 올랐다.
기술 사양
Qwen2.5-VL-3B-Instruct를 기반으로 128개 A100 GPU로 학습됐다. 실행에는 40GB 이상의 VRAM이 필요하며, GPU 없이는 동작하지 않는다. GitHub 및 Hugging Face(bytedance-research/Lance)에서 모델 가중치와 추론 스크립트를 받을 수 있다.
3B라는 소형 파라미터로 멀티모달 통합 처리를 달성한 Lance는 로컬 환경에서 멀티모달 AI를 구동하려는 개발자와 연구자에게 주목받고 있다.
Related Articles
중요한 점은 open model 진영에서 긴 context와 실제 배포용 구성을 함께 내놓는 경우가 드물다는 데 있다. DeepSeek는 1M context, 1.6T·49B Pro, 284B·13B Flash라는 숫자를 한 번에 제시했다.
NVIDIA가 4월 28일 30B 파라미터 멀티모달 오픈 모델 Nemotron 3 Nano Omni를 공개했다. 비전·오디오·언어를 단일 모델로 처리하며, 동급 오픈 옴니 모델 대비 처리량이 9배 높다.
NVIDIA 연구팀이 최대 1분 길이의 720p 해상도 영상을 생성할 수 있는 2.6B 파라미터 오픈소스 월드 모델 SANA-WM을 공개했다. 상대적으로 작은 모델 크기와 오픈소스 공개가 특징이다.
Comments (0)
No comments yet. Be the first to comment!