r/LocalLLaMAが注目した Netflix の公開 video deletion model『VOID』
Original: Netflix just dropped their first public model on Hugging Face: VOID: Video Object and Interaction Deletion View original →
r/LocalLLaMA の post では、Netflix が Hugging Face に初めて公開した model VOID が 1,100 以上の upvote を集め、大きな話題になった。注目点は単なる weight release ではなく、video inpainting の中でも難しい問題を狙っていることだ。model card と GitHub repo によれば、VOID は object を消すだけでなく、その object が scene に与えていた physical interaction まで同時に除去することを目指している。
公開資料によると、VOID は CogVideoX-Fun-V1.5-5b-InP を土台に fine-tuning された system で、interaction-aware な quadmask conditioning を使う。mask の値は、削除対象 object、overlap 領域、影響を受けた領域、保持すべき background を分けて表現する。Netflix は、たとえば guitar を持つ人物を消した場合に、guitar も不自然に空中に残るのではなく、自然に落下するような counterfactual video を作れると説明している。
- base architecture は 5B の CogVideoX 3D Transformer だ。
- 既定の出力解像度は 384x672、最大 197 frame に対応する。
- Pass 1 は base inpainting model、Pass 2 は temporal consistency を高める refinement 段階だ。
- quick-start notebook は A100 級の 40GB+ VRAM GPU を必要とする。
open release として workflow の説明もかなり具体的だ。README には CLI 手順、入力フォルダ構成、optional な two-pass inference、さらに SAM2 と Gemini を組み合わせて quadmask を作る pipeline まで記載されている。training 情報も比較的開かれており、著者らは HUMOTO と Kubric から生成した paired counterfactual video を使い、8x A100 80GB GPU と DeepSpeed ZeRO Stage 2 で学習したと述べている。
Reddit で反応が大きかった理由もそこにある。高評価コメントのひとつは、shadow や reflection だけでなく physical interaction まで消すという説明自体が印象的だと述べた。別のコメントは、Netflix の方が一部の frontier model 企業より open source 的だと冗談めかしていた。r/LocalLLaMA でこの post が響いたのは、派手な demo だけでなく、weights、code、notebook、training hint まで揃っていて、読者が自分で主張を試せる状態になっているからだ。
Related Articles
Metaは2026年3月27日、SAM 3.1をSAM 3のdrop-in updateとして公開し、object multiplexingでvideo processing efficiencyを高めたと発表した。projectのrelease noteによれば、この更新はshared-memoryベースのjoint multi-object tracking、新checkpoint、そして2025年11月版SAM 3と比べてsingle H100で128 object時に約7倍の高速化を含む。
Cohereは2026年3月28日、Transcribeがreal-world noise環境でspeech recognition accuracyの新しい基準を示すと述べ、試用リンクを共有した。関連するHugging Face資料ではApache 2.0の2B-parameter・14-language ASR modelとして位置づけられ、別のWebGPU demoはこのmodelがbrowser上でローカル動作することを示している。
TimesFM を扱った Hacker News の投稿は 254 points、95 comments を集め、単なる GitHub リポジトリ紹介ではなく、汎用 time-series foundation model が本当に複数ドメインへ一般化できるのかという議論へ発展した。コメントは TimesFM 2.5 の更新点に加え、trust、explainability、Prophet や Nixtla との比較に集中した。
Comments (0)
No comments yet. Be the first to comment!