Meituan LongCat 팀이 음성·이미지·텍스트 기반 아바타 영상 모델 LongCat-Video-Avatar 1.5를 공개했다. Hugging Face 모델 카드는 MIT 라이선스와 Diffusers 사용 예시를 제공한다.
#video-generation
RSS Feed구글 딥마인드가 Google I/O 2026에서 텍스트·이미지·오디오·영상 등 모든 입력으로 영상을 생성하는 Gemini Omni를 공개했다. Gemini의 지능과 구글 생성형 미디어 기술의 결합으로, Gemini 앱과 YouTube Shorts를 통해 즉시 이용 가능하다.
구글이 I/O 2026 키노트(5월 19일)에서 Gemini Omni를 발표했다. Sora·Runway 등 기존 AI 영상 생성기와 달리 물리 환경의 인과관계를 이해하는 '세계 모델'로, 자연어 명령만으로 배경·조명·카메라 앵글을 실시간 수정하는 대화형 편집이 핵심이다. 발표 당일 Veo를 대체해 Google AI 구독자에게 즉시 제공됐다.
NVIDIA 연구팀이 최대 1분 길이의 720p 해상도 영상을 생성할 수 있는 2.6B 파라미터 오픈소스 월드 모델 SANA-WM을 공개했다. 상대적으로 작은 모델 크기와 오픈소스 공개가 특징이다.
Google의 새 비디오 생성 모델 'Omni'의 유출 영상이 공개됐다. 기존 비디오 생성 모델의 약점으로 지적되어온 텍스트 렌더링의 일관성이 크게 개선된 것으로 보인다.
Google은 Veo 3.1 Lite를 자사에서 가장 비용 효율적인 video generation model로 공개했다. Veo 3.1 Fast 대비 50% 미만의 비용에 같은 속도를 제공하며, paid tier의 Gemini API와 Google AI Studio를 통해 더 많은 고빈도 video app 시나리오를 겨냥한다.
Reddit에서 확산된 Netflix VOID는 video에서 물체뿐 아니라 그 물체가 만든 interaction까지 제거하려는 open research model이다. CogVideoX 기반 2-pass pipeline, Gemini+SAM2 mask 생성, 40GB+ VRAM 요구사항이 기술적 핵심이다.
Together AI는 2026년 4월 3일 Alibaba Cloud의 Wan 2.7이 자사 플랫폼에 들어온다고 밝혔다. 함께 공개된 제품 글은 text-to-video를 지금 바로 제공하고, image-to-video·reference-to-video·video edit를 같은 API·인증·과금 표면 위로 확장하겠다고 설명한다.
OpenAI는 March 23, 2026 Sora 영상에 visible·invisible provenance 신호와 C2PA metadata를 넣고, 실존 인물이 등장하는 영상에는 더 강한 consent 제어를 적용한다고 밝혔다. 회사는 teen 전용 보호, video·audio 전반의 filtering, living artist 모방 차단도 함께 설명했다.
파이낸셜 타임스가 DeepSeek V4가 다음 주 출시될 것이라고 보도했습니다. 이미지와 동영상 생성 기능을 탑재하여 미국 경쟁사에 새로운 도전장을 내밀 것으로 예상됩니다.
TikTok 모회사 바이트댄스가 개발한 Seedance 2.0 AI 영상 생성 모델이 극도로 현실적인 품질로 할리우드 업계를 충격에 빠뜨리고 있습니다. 단 하나의 프롬프트만으로도 실제 카메라 촬영과 구분하기 어려운 영상을 생성하는 이 도구가 갑작스럽게 등장해 엔터테인먼트 업계 전반에 경각심을 불러일으키고 있습니다.
ByteDance가 공개한 Seedance 2.0은 텍스트·이미지·영상·음성 4가지 입력을 동시에 처리해 최대 20초 1080p 영상을 생성한다. 출시 하루 만에 Disney, Paramount 등 할리우드 스튜디오로부터 저작권 침해 법적 경고를 받으며 AI 영상 생성의 새 분쟁 국면을 열었다.