Meituan LongCat 1.5, 음성 기반 아바타 영상을 MIT 모델로 공개한 실험과 쟁점
Original: Meituan Releases LongCat-Video-Avatar 1.5 as MIT Model View original →
음성 기반 아바타 모델이 공개 모델로 이동
아바타 영상 생성 경쟁이 폐쇄형 서비스 중심에서 공개 모델 실험으로 넓어지고 있다. Gorden Sun은 소스 트윗에서 LongCat-Video-Avatar 1.5를 “음성 구동 영상 생성” 모델이라고 소개했다. 원문 트윗은 여기에서 확인할 수 있다.
프로젝트 페이지는 Meituan LongCat Team이 LongCat-Video 기반으로 만든 표현형 아바타 모델이라고 설명한다. 공개 데모는 립싱크, 노래, 애니메이션, 다자 상호작용을 나누어 보여주며, 1.0 대비 입 모양 정확도, 긴 영상에서의 정체성 유지, 상호작용 시나리오, 8-step 생성 속도를 개선했다고 밝힌다. 비교 섹션에는 HeyGen, Kling Avatar 2.0, OmniHuman-1.5가 같은 축에 놓여 있어 상용 아바타 도구와 직접 비교하려는 의도가 분명하다.
Hugging Face 모델 카드도 중요하다. 모델은 Diffusers, ONNX, Safetensors, Transformers 태그와 함께 올라와 있고, audio-text-to-video, audio-image-text-to-video, audio-driven-video-continuation, avatar, video-generation 태그가 붙어 있다. 라이선스는 MIT로 표시되며, 모델 카드는 민감하거나 고위험한 배포 전 정확성·안전성·공정성을 평가하라고 명시한다.
다음 관전점은 품질보다 배포 조건이다. 프로젝트 페이지의 윤리 고지는 데모 이미지와 음성이 실제 영상에서 파생될 수 있고 생성 콘텐츠는 학술 사용 목적이라고 설명한다. 반면 Hugging Face에는 MIT 라이선스가 표시되어 있어, 개발자는 모델 카드의 제한·법적 요구·데이터 권리 문제를 함께 검토해야 한다. 공개 모델이 상용 아바타 서비스의 품질 격차를 얼마나 좁히는지, 그리고 안전장치가 실제 앱 구현에서 얼마나 따라오는지가 핵심이다.
Related Articles
구글이 I/O 2026 키노트(5월 19일)에서 Gemini Omni를 발표했다. Sora·Runway 등 기존 AI 영상 생성기와 달리 물리 환경의 인과관계를 이해하는 '세계 모델'로, 자연어 명령만으로 배경·조명·카메라 앵글을 실시간 수정하는 대화형 편집이 핵심이다. 발표 당일 Veo를 대체해 Google AI 구독자에게 즉시 제공됐다.
구글 딥마인드가 Google I/O 2026에서 텍스트·이미지·오디오·영상 등 모든 입력으로 영상을 생성하는 Gemini Omni를 공개했다. Gemini의 지능과 구글 생성형 미디어 기술의 결합으로, Gemini 앱과 YouTube Shorts를 통해 즉시 이용 가능하다.
NVIDIA 연구팀이 최대 1분 길이의 720p 해상도 영상을 생성할 수 있는 2.6B 파라미터 오픈소스 월드 모델 SANA-WM을 공개했다. 상대적으로 작은 모델 크기와 오픈소스 공개가 특징이다.
Comments (0)
No comments yet. Be the first to comment!