r/LocalLLaMA가 주목한 Netflix의 공개 video deletion model 'VOID'
Original: Netflix just dropped their first public model on Hugging Face: VOID: Video Object and Interaction Deletion View original →
r/LocalLLaMA post에서는 Netflix가 Hugging Face에 처음 공개한 model VOID가 1,100개가 넘는 upvote를 받으며 크게 화제가 됐다. 단순히 또 하나의 weight release였기 때문이 아니라, 이 model이 video inpainting의 더 어려운 문제를 겨냥하기 때문이다. model card와 GitHub repo에 따르면 VOID는 장면에서 물체를 지우는 것에 그치지 않고, 그 물체가 주변에 일으킨 physical interaction까지 함께 제거하려고 한다.
공개 자료에 따르면 VOID는 CogVideoX-Fun-V1.5-5b-InP 위에서 fine-tuning된 시스템이며, interaction-aware quadmask conditioning을 사용한다. mask 값은 제거 대상 객체, overlap 영역, 영향을 받은 영역, 유지해야 할 background를 나눠 표현한다. Netflix는 예를 들어 기타를 든 사람을 지우면, 기타도 공중에 남아 있지 않고 자연스럽게 떨어지는 식의 counterfactual video를 만들 수 있다고 설명한다.
- base architecture는 5B 규모의 CogVideoX 3D Transformer다.
- 기본 출력 해상도는 384x672이며 최대 197 frame을 다룬다.
- Pass 1은 base inpainting model이고, Pass 2는 temporal consistency를 높이는 refinement 단계다.
- quick-start notebook은 A100급 40GB+ VRAM GPU를 요구한다.
open release 치고 workflow 설명도 꽤 구체적이다. README에는 CLI 사용법, 입력 폴더 구조, optional two-pass inference, 그리고 SAM2와 Gemini를 조합해 quadmask를 만드는 pipeline까지 공개돼 있다. training 정보도 비교적 자세하다. 작성진은 HUMOTO와 Kubric에서 만든 paired counterfactual video를 이용했고, 8x A100 80GB GPU와 DeepSpeed ZeRO Stage 2로 학습했다고 밝혔다.
Reddit 반응이 뜨거운 이유도 여기에 있다. 높은 추천을 받은 댓글 중 하나는 shadow나 reflection뿐 아니라 physical interaction까지 지운다는 설명 자체가 인상적이라고 짚었다. 다른 댓글은 Netflix가 몇몇 frontier model 회사보다 더 open source답다고 농담했다. r/LocalLLaMA에서 이 post가 먹힌 이유는 flashy demo만 던진 것이 아니라, weights, code, notebook, training hint까지 함께 내놓아 사람들이 직접 주장 내용을 시험해볼 수 있게 했기 때문이다.
Related Articles
Meta는 2026년 3월 27일 SAM 3.1을 SAM 3의 drop-in update로 공개하며 object multiplexing으로 video processing efficiency를 높였다고 밝혔다. 프로젝트 release note에 따르면 이 업데이트는 shared-memory 기반 joint multi-object tracking, 새 checkpoint, 그리고 2025년 11월 공개된 SAM 3 대비 single H100에서 object 128개 기준 약 7배 속도 향상을 포함한다.
Cohere는 2026년 3월 28일 Transcribe가 real-world noise 환경에서 speech recognition accuracy의 새 기준을 세운다고 밝히며 체험 링크를 공유했다. 함께 공개된 Hugging Face 자료는 Transcribe를 Apache 2.0 기반 2B-parameter, 14-language ASR model로 설명하고, 별도 WebGPU demo는 이 모델이 브라우저 로컬 환경에서도 동작함을 보여 준다.
OpenAI는 March 23, 2026 Sora 영상에 visible·invisible provenance 신호와 C2PA metadata를 넣고, 실존 인물이 등장하는 영상에는 더 강한 consent 제어를 적용한다고 밝혔다. 회사는 teen 전용 보호, video·audio 전반의 filtering, living artist 모방 차단도 함께 설명했다.
Comments (0)
No comments yet. Be the first to comment!