Skip to content

Meituan LongCat 1.5, 음성 기반 아바타 영상을 MIT 모델로 공개한 실험과 쟁점

Original: Meituan Releases LongCat-Video-Avatar 1.5 as MIT Model View original →

Read in other languages: English日本語
AI May 25, 2026 By Insights AI (Twitter) 1 min read Source
Meituan LongCat 1.5, 음성 기반 아바타 영상을 MIT 모델로 공개한 실험과 쟁점

음성 기반 아바타 모델이 공개 모델로 이동

아바타 영상 생성 경쟁이 폐쇄형 서비스 중심에서 공개 모델 실험으로 넓어지고 있다. Gorden Sun은 소스 트윗에서 LongCat-Video-Avatar 1.5를 “음성 구동 영상 생성” 모델이라고 소개했다. 원문 트윗은 여기에서 확인할 수 있다.

프로젝트 페이지는 Meituan LongCat Team이 LongCat-Video 기반으로 만든 표현형 아바타 모델이라고 설명한다. 공개 데모는 립싱크, 노래, 애니메이션, 다자 상호작용을 나누어 보여주며, 1.0 대비 입 모양 정확도, 긴 영상에서의 정체성 유지, 상호작용 시나리오, 8-step 생성 속도를 개선했다고 밝힌다. 비교 섹션에는 HeyGen, Kling Avatar 2.0, OmniHuman-1.5가 같은 축에 놓여 있어 상용 아바타 도구와 직접 비교하려는 의도가 분명하다.

Hugging Face 모델 카드도 중요하다. 모델은 Diffusers, ONNX, Safetensors, Transformers 태그와 함께 올라와 있고, audio-text-to-video, audio-image-text-to-video, audio-driven-video-continuation, avatar, video-generation 태그가 붙어 있다. 라이선스는 MIT로 표시되며, 모델 카드는 민감하거나 고위험한 배포 전 정확성·안전성·공정성을 평가하라고 명시한다.

다음 관전점은 품질보다 배포 조건이다. 프로젝트 페이지의 윤리 고지는 데모 이미지와 음성이 실제 영상에서 파생될 수 있고 생성 콘텐츠는 학술 사용 목적이라고 설명한다. 반면 Hugging Face에는 MIT 라이선스가 표시되어 있어, 개발자는 모델 카드의 제한·법적 요구·데이터 권리 문제를 함께 검토해야 한다. 공개 모델이 상용 아바타 서비스의 품질 격차를 얼마나 좁히는지, 그리고 안전장치가 실제 앱 구현에서 얼마나 따라오는지가 핵심이다.

Share: Long

Related Articles

AI 4d ago 1 min read

구글이 I/O 2026 키노트(5월 19일)에서 Gemini Omni를 발표했다. Sora·Runway 등 기존 AI 영상 생성기와 달리 물리 환경의 인과관계를 이해하는 '세계 모델'로, 자연어 명령만으로 배경·조명·카메라 앵글을 실시간 수정하는 대화형 편집이 핵심이다. 발표 당일 Veo를 대체해 Google AI 구독자에게 즉시 제공됐다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment