r/LocalLLaMA가 주목한 Netflix의 공개 video deletion model 'VOID'

Original: Netflix just dropped their first public model on Hugging Face: VOID: Video Object and Interaction Deletion View original →

Read in other languages: English日本語
AI Apr 4, 2026 By Insights AI (Reddit) 1 min read Source

r/LocalLLaMA post에서는 Netflix가 Hugging Face에 처음 공개한 model VOID가 1,100개가 넘는 upvote를 받으며 크게 화제가 됐다. 단순히 또 하나의 weight release였기 때문이 아니라, 이 model이 video inpainting의 더 어려운 문제를 겨냥하기 때문이다. model cardGitHub repo에 따르면 VOID는 장면에서 물체를 지우는 것에 그치지 않고, 그 물체가 주변에 일으킨 physical interaction까지 함께 제거하려고 한다.

공개 자료에 따르면 VOID는 CogVideoX-Fun-V1.5-5b-InP 위에서 fine-tuning된 시스템이며, interaction-aware quadmask conditioning을 사용한다. mask 값은 제거 대상 객체, overlap 영역, 영향을 받은 영역, 유지해야 할 background를 나눠 표현한다. Netflix는 예를 들어 기타를 든 사람을 지우면, 기타도 공중에 남아 있지 않고 자연스럽게 떨어지는 식의 counterfactual video를 만들 수 있다고 설명한다.

  • base architecture는 5B 규모의 CogVideoX 3D Transformer다.
  • 기본 출력 해상도는 384x672이며 최대 197 frame을 다룬다.
  • Pass 1은 base inpainting model이고, Pass 2는 temporal consistency를 높이는 refinement 단계다.
  • quick-start notebook은 A100급 40GB+ VRAM GPU를 요구한다.

open release 치고 workflow 설명도 꽤 구체적이다. README에는 CLI 사용법, 입력 폴더 구조, optional two-pass inference, 그리고 SAM2와 Gemini를 조합해 quadmask를 만드는 pipeline까지 공개돼 있다. training 정보도 비교적 자세하다. 작성진은 HUMOTO와 Kubric에서 만든 paired counterfactual video를 이용했고, 8x A100 80GB GPU와 DeepSpeed ZeRO Stage 2로 학습했다고 밝혔다.

Reddit 반응이 뜨거운 이유도 여기에 있다. 높은 추천을 받은 댓글 중 하나는 shadow나 reflection뿐 아니라 physical interaction까지 지운다는 설명 자체가 인상적이라고 짚었다. 다른 댓글은 Netflix가 몇몇 frontier model 회사보다 더 open source답다고 농담했다. r/LocalLLaMA에서 이 post가 먹힌 이유는 flashy demo만 던진 것이 아니라, weights, code, notebook, training hint까지 함께 내놓아 사람들이 직접 주장 내용을 시험해볼 수 있게 했기 때문이다.

Share: Long

Related Articles

AI sources.twitter 3d ago 2 min read

Meta는 2026년 3월 27일 SAM 3.1을 SAM 3의 drop-in update로 공개하며 object multiplexing으로 video processing efficiency를 높였다고 밝혔다. 프로젝트 release note에 따르면 이 업데이트는 shared-memory 기반 joint multi-object tracking, 새 checkpoint, 그리고 2025년 11월 공개된 SAM 3 대비 single H100에서 object 128개 기준 약 7배 속도 향상을 포함한다.

Cohere, open 2B ASR model Transcribe와 WebGPU 브라우저 demo 전면 배치
AI sources.twitter 6d ago 1 min read

Cohere는 2026년 3월 28일 Transcribe가 real-world noise 환경에서 speech recognition accuracy의 새 기준을 세운다고 밝히며 체험 링크를 공유했다. 함께 공개된 Hugging Face 자료는 Transcribe를 Apache 2.0 기반 2B-parameter, 14-language ASR model로 설명하고, 별도 WebGPU demo는 이 모델이 브라우저 로컬 환경에서도 동작함을 보여 준다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.