NetflixのVOID video object deletion modelがRedditで話題

2026年4月5日時点でRedditの/r/singularityでは、Netflixの新しいVOID repositoryを紹介する投稿が強い反応を集めていた。クロール時点でこのpostは198 upvotes、29 commentsで、GitHub repoにはarXiv paper、demo、Hugging Face weights、Colab notebookまでそろっており、かなり完成度の高いresearch releaseになっている。

VOIDの重要点は、普通のvideo inpaintingより一段踏み込んでいることだ。単にvideoからobjectを消すのではなく、そのobjectがsceneに与えたinteractionまで取り除くことを目指している。repoの例は分かりやすい。guitarを持つ人物を消した場合、VOIDは人物の影や反射だけでなく、guitarが空中で不自然に残らないように、そのinteractionも修正して自然に落下するよう処理するという。ここが面白い。多くのediting toolはpixelの穴埋めはできても、時間軸をまたいだcausal consistencyの回復までは扱えないからだ。

技術構成もかなり具体的に公開されている。Netflixによれば、VOIDはCogVideoXを土台にし、interaction-aware mask conditioningを用いたvideo inpainting向けにfine-tuningされている。推論は2つのtransformer checkpointで構成される。Pass 1がbase inpainting modelで、Pass 2がlonger clips向けのwarped-noise refinementによってtemporal consistencyを改善する段階だ。mask生成側ではGemini via the Google AI APIとSAM2を併用し、消す対象だけでなく、除去対象が周囲のsceneへ与えた影響領域までreasoningする設計になっている。

公開の仕方も実用寄りだ。GitHubにはHugging Face model links、browser demo、Colab notebook、詳細なsetup手順がまとめられている。一方で、実行条件は軽くない。quick-start notebookには40GB以上のVRAMを持つGPU、たとえばA100級が必要だと書かれており、Pass 2やmask pipelineまで含めて自前で回すなら、さらに重い環境が必要になる。

この投稿がRedditで伸びた理由もそこにある。VOIDはまだ軽量なcreator toolではなく、research systemに近い。それでも、「objectを消す」だけでなく「object removal後のscene dynamicsを修復する」方向を、公開コード付きで具体化した点は明確な前進だ。video editingやgenerative video研究を追っている読者にとって、最も重要なのはまさにその部分だ。

NetflixのVOID video object deletion modelがRedditで話題

Related Articles

NVIDIA、720p・1分動画生成可能な2.6Bオープンソース世界モデル「SANA-WM」を公開

Google I/O 2026: 会話でビデオを編集できる「世界モデル」Gemini Omni登場

Meituan LongCat 1.5、音声駆動アバター動画をMITモデルとして公開、検証競争の基準に