Meituan LongCat 1.5, 음성 기반 아바타 영상을 MIT 모델로 공개한 실험과 쟁점

음성 기반 아바타 모델이 공개 모델로 이동

아바타 영상 생성 경쟁이 폐쇄형 서비스 중심에서 공개 모델 실험으로 넓어지고 있다. Gorden Sun은 소스 트윗에서 LongCat-Video-Avatar 1.5를 “음성 구동 영상 생성” 모델이라고 소개했다. 원문 트윗은 여기에서 확인할 수 있다.

프로젝트 페이지는 Meituan LongCat Team이 LongCat-Video 기반으로 만든 표현형 아바타 모델이라고 설명한다. 공개 데모는 립싱크, 노래, 애니메이션, 다자 상호작용을 나누어 보여주며, 1.0 대비 입 모양 정확도, 긴 영상에서의 정체성 유지, 상호작용 시나리오, 8-step 생성 속도를 개선했다고 밝힌다. 비교 섹션에는 HeyGen, Kling Avatar 2.0, OmniHuman-1.5가 같은 축에 놓여 있어 상용 아바타 도구와 직접 비교하려는 의도가 분명하다.

Hugging Face 모델 카드도 중요하다. 모델은 Diffusers, ONNX, Safetensors, Transformers 태그와 함께 올라와 있고, audio-text-to-video, audio-image-text-to-video, audio-driven-video-continuation, avatar, video-generation 태그가 붙어 있다. 라이선스는 MIT로 표시되며, 모델 카드는 민감하거나 고위험한 배포 전 정확성·안전성·공정성을 평가하라고 명시한다.

다음 관전점은 품질보다 배포 조건이다. 프로젝트 페이지의 윤리 고지는 데모 이미지와 음성이 실제 영상에서 파생될 수 있고 생성 콘텐츠는 학술 사용 목적이라고 설명한다. 반면 Hugging Face에는 MIT 라이선스가 표시되어 있어, 개발자는 모델 카드의 제한·법적 요구·데이터 권리 문제를 함께 검토해야 한다. 공개 모델이 상용 아바타 서비스의 품질 격차를 얼마나 좁히는지, 그리고 안전장치가 실제 앱 구현에서 얼마나 따라오는지가 핵심이다.

Meituan LongCat 1.5, 음성 기반 아바타 영상을 MIT 모델로 공개한 실험과 쟁점

음성 기반 아바타 모델이 공개 모델로 이동

Related Articles

Meta Muse Image, Instagram·WhatsApp까지 들어온 agentic 이미지 모델

NVIDIA MOTIVE, video model 학습 clip 선별로 74.1% 선호도 확보

Kling, $2.8B 조달… Kuaishou AI video 분사·홍콩 IPO에 속도 붙은 이유