NetflixのVOID video object deletion modelがRedditで話題
Original: Netflix releases Void a video model that can remove objects from video and their physical interactions on the scene View original →
2026年4月5日時点でRedditの/r/singularityでは、Netflixの新しいVOID repositoryを紹介する投稿が強い反応を集めていた。クロール時点でこのpostは198 upvotes、29 commentsで、GitHub repoにはarXiv paper、demo、Hugging Face weights、Colab notebookまでそろっており、かなり完成度の高いresearch releaseになっている。
VOIDの重要点は、普通のvideo inpaintingより一段踏み込んでいることだ。単にvideoからobjectを消すのではなく、そのobjectがsceneに与えたinteractionまで取り除くことを目指している。repoの例は分かりやすい。guitarを持つ人物を消した場合、VOIDは人物の影や反射だけでなく、guitarが空中で不自然に残らないように、そのinteractionも修正して自然に落下するよう処理するという。ここが面白い。多くのediting toolはpixelの穴埋めはできても、時間軸をまたいだcausal consistencyの回復までは扱えないからだ。
技術構成もかなり具体的に公開されている。Netflixによれば、VOIDはCogVideoXを土台にし、interaction-aware mask conditioningを用いたvideo inpainting向けにfine-tuningされている。推論は2つのtransformer checkpointで構成される。Pass 1がbase inpainting modelで、Pass 2がlonger clips向けのwarped-noise refinementによってtemporal consistencyを改善する段階だ。mask生成側ではGemini via the Google AI APIとSAM2を併用し、消す対象だけでなく、除去対象が周囲のsceneへ与えた影響領域までreasoningする設計になっている。
公開の仕方も実用寄りだ。GitHubにはHugging Face model links、browser demo、Colab notebook、詳細なsetup手順がまとめられている。一方で、実行条件は軽くない。quick-start notebookには40GB以上のVRAMを持つGPU、たとえばA100級が必要だと書かれており、Pass 2やmask pipelineまで含めて自前で回すなら、さらに重い環境が必要になる。
この投稿がRedditで伸びた理由もそこにある。VOIDはまだ軽量なcreator toolではなく、research systemに近い。それでも、「objectを消す」だけでなく「object removal後のscene dynamicsを修復する」方向を、公開コード付きで具体化した点は明確な前進だ。video editingやgenerative video研究を追っている読者にとって、最も重要なのはまさにその部分だ。
Related Articles
NVIDIA Labsが、最大1分・720p解像度の動画を生成できる2.6Bパラメータのオープンソース世界モデル「SANA-WM」を公開した。比較的小さなモデルサイズとオープンソース公開が動画生成研究のアクセシビリティを高める。
GoogleがI/O 2026(5月19日)で「世界モデル」Gemini Omniを発表した。Sora・Runwayなど既存のAI動画生成ツールと異なり、物理環境の因果関係を理解した上で自然言語の指示に応じてシーンを編集できる。VeoをGeminiアプリで置き換え、同日から提供開始となった。
Meituan LongCat TeamがLongCat-Video-Avatar 1.5を公開した。Hugging FaceにはMITライセンス、Diffusers利用例、音声・画像・テキストから動画を作るタグが並ぶ。