r/LocalLLaMAが注目した Netflix の公開 video deletion model『VOID』

r/LocalLLaMA の post では、Netflix が Hugging Face に初めて公開した model VOID が 1,100 以上の upvote を集め、大きな話題になった。注目点は単なる weight release ではなく、video inpainting の中でも難しい問題を狙っていることだ。model card と GitHub repo によれば、VOID は object を消すだけでなく、その object が scene に与えていた physical interaction まで同時に除去することを目指している。

公開資料によると、VOID は CogVideoX-Fun-V1.5-5b-InP を土台に fine-tuning された system で、interaction-aware な quadmask conditioning を使う。mask の値は、削除対象 object、overlap 領域、影響を受けた領域、保持すべき background を分けて表現する。Netflix は、たとえば guitar を持つ人物を消した場合に、guitar も不自然に空中に残るのではなく、自然に落下するような counterfactual video を作れると説明している。

base architecture は 5B の CogVideoX 3D Transformer だ。
既定の出力解像度は 384x672、最大 197 frame に対応する。
Pass 1 は base inpainting model、Pass 2 は temporal consistency を高める refinement 段階だ。
quick-start notebook は A100 級の 40GB+ VRAM GPU を必要とする。

open release として workflow の説明もかなり具体的だ。README には CLI 手順、入力フォルダ構成、optional な two-pass inference、さらに SAM2 と Gemini を組み合わせて quadmask を作る pipeline まで記載されている。training 情報も比較的開かれており、著者らは HUMOTO と Kubric から生成した paired counterfactual video を使い、8x A100 80GB GPU と DeepSpeed ZeRO Stage 2 で学習したと述べている。

Reddit で反応が大きかった理由もそこにある。高評価コメントのひとつは、shadow や reflection だけでなく physical interaction まで消すという説明自体が印象的だと述べた。別のコメントは、Netflix の方が一部の frontier model 企業より open source 的だと冗談めかしていた。r/LocalLLaMA でこの post が響いたのは、派手な demo だけでなく、weights、code、notebook、training hint まで揃っていて、読者が自分で主張を試せる状態になっているからだ。

r/LocalLLaMAが注目した Netflix の公開 video deletion model『VOID』

Related Articles

Meta、object multiplexingを導入したSAM 3.1を公開、multi-object video trackingを高速化

Cohere、open 2B ASR model TranscribeとWebGPU browser demoを前面に

Hacker Newsで議論になった TimesFM 2.5 と汎用 forecasting モデル

Comments (0)

Leave a Comment