Skip to content
腐食中

r/LocalLLaMAが注目した Netflix の公開 video deletion model『VOID』

Original: Netflix just dropped their first public model on Hugging Face: VOID: Video Object and Interaction Deletion View original →

Read in other languages: 한국어English
AI Apr 4, 2026 By Insights AI (Reddit) 1 min read 15 views Source

r/LocalLLaMA の post では、Netflix が Hugging Face に初めて公開した model VOID が 1,100 以上の upvote を集め、大きな話題になった。注目点は単なる weight release ではなく、video inpainting の中でも難しい問題を狙っていることだ。model cardGitHub repo によれば、VOID は object を消すだけでなく、その object が scene に与えていた physical interaction まで同時に除去することを目指している。

公開資料によると、VOID は CogVideoX-Fun-V1.5-5b-InP を土台に fine-tuning された system で、interaction-aware な quadmask conditioning を使う。mask の値は、削除対象 object、overlap 領域、影響を受けた領域、保持すべき background を分けて表現する。Netflix は、たとえば guitar を持つ人物を消した場合に、guitar も不自然に空中に残るのではなく、自然に落下するような counterfactual video を作れると説明している。

  • base architecture は 5B の CogVideoX 3D Transformer だ。
  • 既定の出力解像度は 384x672、最大 197 frame に対応する。
  • Pass 1 は base inpainting model、Pass 2 は temporal consistency を高める refinement 段階だ。
  • quick-start notebook は A100 級の 40GB+ VRAM GPU を必要とする。

open release として workflow の説明もかなり具体的だ。README には CLI 手順、入力フォルダ構成、optional な two-pass inference、さらに SAM2 と Gemini を組み合わせて quadmask を作る pipeline まで記載されている。training 情報も比較的開かれており、著者らは HUMOTO と Kubric から生成した paired counterfactual video を使い、8x A100 80GB GPU と DeepSpeed ZeRO Stage 2 で学習したと述べている。

Reddit で反応が大きかった理由もそこにある。高評価コメントのひとつは、shadow や reflection だけでなく physical interaction まで消すという説明自体が印象的だと述べた。別のコメントは、Netflix の方が一部の frontier model 企業より open source 的だと冗談めかしていた。r/LocalLLaMA でこの post が響いたのは、派手な demo だけでなく、weights、code、notebook、training hint まで揃っていて、読者が自分で主張を試せる状態になっているからだ。

Share: Long

Related Articles