ByteDance, 3B 통합 멀티모달 모델 'Lance' 오픈소스 공개

이미지·영상을 하나로

ByteDance Research가 이미지와 영상의 생성, 편집, 이해를 단일 아키텍처로 처리하는 멀티모달 모델 Lance를 공개했다. 모델 크기는 3B 파라미터이며 Apache 2.0 라이선스로 오픈소스로 제공된다.

주요 기능

Lance는 텍스트→이미지(T2I), 텍스트→영상(T2V), 이미지 편집, 영상 편집, 이미지 이해, 영상 이해 등 6가지 핵심 태스크를 하나의 모델로 수행한다. 영상 생성은 480p 해상도로 최대 121프레임까지 지원한다.

벤치마크 성과

Lance는 DPG(이미지 생성) 84.67점, GenEval 0.90, VBench(영상 생성) 85.11점을 기록했다. 특히 영상 생성 벤치마크인 VBench에서는 테스트된 모델 중 최고 점수를 달성했으며, 이미지 편집(GEdit 7.30)에서도 통합 모델 중 최상위권에 올랐다.

기술 사양

Qwen2.5-VL-3B-Instruct를 기반으로 128개 A100 GPU로 학습됐다. 실행에는 40GB 이상의 VRAM이 필요하며, GPU 없이는 동작하지 않는다. GitHub 및 Hugging Face(bytedance-research/Lance)에서 모델 가중치와 추론 스크립트를 받을 수 있다.

3B라는 소형 파라미터로 멀티모달 통합 처리를 달성한 Lance는 로컬 환경에서 멀티모달 AI를 구동하려는 개발자와 연구자에게 주목받고 있다.

AI Hacker News Feb 12, 2026 1 min read

GLM-OCR: 복잡한 문서 이해를 위한 초경량 멀티모달 OCR 모델

불과 0.9B 파라미터로 복잡한 문서 레이아웃, 표, 코드, 수식을 처리하는 오픈소스 OCR 시스템 GLM-OCR이 공개되었습니다. OmniDocBench V1.5에서 94.62점으로 1위를 차지하며 실용성과 효율성을 입증했습니다.

#ocr #multimodal #document-ai

AI Reddit Feb 11, 2026 1 min read

Qwen-Image-2.0 공개: 7B 파라미터로 2K 이미지 생성 및 편집 통합

Alibaba Qwen 팀이 7B 파라미터 통합 이미지 생성·편집 모델 Qwen-Image-2.0을 발표했다. 20B였던 v1 대비 크기를 대폭 줄이면서도 2K 해상도, 실제 텍스트 렌더링, 멀티 패널 만화 생성 등 향상된 기능을 제공한다.

#image-generation #qwen #multimodal

AI Reddit Mar 14, 2026 2 min read

r/singularity, Meituan의 8-step open-source image editing 모델 LongCat-Image-Edit-Turbo 주목

r/singularity는 Meituan의 LongCat-Image-Edit-Turbo를 조명했다. 이 모델은 단 8 NFEs로 high-quality 결과를 내세우는 distilled open-source image editor이며, Apache 2.0 Hugging Face 모델과 공개 arXiv 보고서, 그리고 benchmark framing에 대한 커뮤니티 검증이 함께 따라붙고 있다.

#meituan #image-editing #open-source