r/LocalLLaMA가 주목한 Netflix의 공개 video deletion model 'VOID'

r/LocalLLaMA post에서는 Netflix가 Hugging Face에 처음 공개한 model VOID가 1,100개가 넘는 upvote를 받으며 크게 화제가 됐다. 단순히 또 하나의 weight release였기 때문이 아니라, 이 model이 video inpainting의 더 어려운 문제를 겨냥하기 때문이다. model card와 GitHub repo에 따르면 VOID는 장면에서 물체를 지우는 것에 그치지 않고, 그 물체가 주변에 일으킨 physical interaction까지 함께 제거하려고 한다.

공개 자료에 따르면 VOID는 CogVideoX-Fun-V1.5-5b-InP 위에서 fine-tuning된 시스템이며, interaction-aware quadmask conditioning을 사용한다. mask 값은 제거 대상 객체, overlap 영역, 영향을 받은 영역, 유지해야 할 background를 나눠 표현한다. Netflix는 예를 들어 기타를 든 사람을 지우면, 기타도 공중에 남아 있지 않고 자연스럽게 떨어지는 식의 counterfactual video를 만들 수 있다고 설명한다.

base architecture는 5B 규모의 CogVideoX 3D Transformer다.
기본 출력 해상도는 384x672이며 최대 197 frame을 다룬다.
Pass 1은 base inpainting model이고, Pass 2는 temporal consistency를 높이는 refinement 단계다.
quick-start notebook은 A100급 40GB+ VRAM GPU를 요구한다.

open release 치고 workflow 설명도 꽤 구체적이다. README에는 CLI 사용법, 입력 폴더 구조, optional two-pass inference, 그리고 SAM2와 Gemini를 조합해 quadmask를 만드는 pipeline까지 공개돼 있다. training 정보도 비교적 자세하다. 작성진은 HUMOTO와 Kubric에서 만든 paired counterfactual video를 이용했고, 8x A100 80GB GPU와 DeepSpeed ZeRO Stage 2로 학습했다고 밝혔다.

Reddit 반응이 뜨거운 이유도 여기에 있다. 높은 추천을 받은 댓글 중 하나는 shadow나 reflection뿐 아니라 physical interaction까지 지운다는 설명 자체가 인상적이라고 짚었다. 다른 댓글은 Netflix가 몇몇 frontier model 회사보다 더 open source답다고 농담했다. r/LocalLLaMA에서 이 post가 먹힌 이유는 flashy demo만 던진 것이 아니라, weights, code, notebook, training hint까지 함께 내놓아 사람들이 직접 주장 내용을 시험해볼 수 있게 했기 때문이다.

r/LocalLLaMA가 주목한 Netflix의 공개 video deletion model 'VOID'

Related Articles

Meta, object multiplexing을 적용한 SAM 3.1 공개로 multi-object video tracking 가속

Cohere, open 2B ASR model Transcribe와 WebGPU 브라우저 demo 전면 배치

OpenAI, C2PA·consent control·teen protection 포함한 Sora safety stack 공개

Comments (0)

Leave a Comment