r/LocalLLaMAが注目した Netflix の公開 video deletion model『VOID』

Original: Netflix just dropped their first public model on Hugging Face: VOID: Video Object and Interaction Deletion View original →

Read in other languages: 한국어English
AI Apr 4, 2026 By Insights AI (Reddit) 1 min read Source

r/LocalLLaMA の post では、Netflix が Hugging Face に初めて公開した model VOID が 1,100 以上の upvote を集め、大きな話題になった。注目点は単なる weight release ではなく、video inpainting の中でも難しい問題を狙っていることだ。model cardGitHub repo によれば、VOID は object を消すだけでなく、その object が scene に与えていた physical interaction まで同時に除去することを目指している。

公開資料によると、VOID は CogVideoX-Fun-V1.5-5b-InP を土台に fine-tuning された system で、interaction-aware な quadmask conditioning を使う。mask の値は、削除対象 object、overlap 領域、影響を受けた領域、保持すべき background を分けて表現する。Netflix は、たとえば guitar を持つ人物を消した場合に、guitar も不自然に空中に残るのではなく、自然に落下するような counterfactual video を作れると説明している。

  • base architecture は 5B の CogVideoX 3D Transformer だ。
  • 既定の出力解像度は 384x672、最大 197 frame に対応する。
  • Pass 1 は base inpainting model、Pass 2 は temporal consistency を高める refinement 段階だ。
  • quick-start notebook は A100 級の 40GB+ VRAM GPU を必要とする。

open release として workflow の説明もかなり具体的だ。README には CLI 手順、入力フォルダ構成、optional な two-pass inference、さらに SAM2 と Gemini を組み合わせて quadmask を作る pipeline まで記載されている。training 情報も比較的開かれており、著者らは HUMOTO と Kubric から生成した paired counterfactual video を使い、8x A100 80GB GPU と DeepSpeed ZeRO Stage 2 で学習したと述べている。

Reddit で反応が大きかった理由もそこにある。高評価コメントのひとつは、shadow や reflection だけでなく physical interaction まで消すという説明自体が印象的だと述べた。別のコメントは、Netflix の方が一部の frontier model 企業より open source 的だと冗談めかしていた。r/LocalLLaMA でこの post が響いたのは、派手な demo だけでなく、weights、code、notebook、training hint まで揃っていて、読者が自分で主張を試せる状態になっているからだ。

Share: Long

Related Articles

AI sources.twitter 3d ago 1 min read

Metaは2026年3月27日、SAM 3.1をSAM 3のdrop-in updateとして公開し、object multiplexingでvideo processing efficiencyを高めたと発表した。projectのrelease noteによれば、この更新はshared-memoryベースのjoint multi-object tracking、新checkpoint、そして2025年11月版SAM 3と比べてsingle H100で128 object時に約7倍の高速化を含む。

Cohere、open 2B ASR model TranscribeとWebGPU browser demoを前面に
AI sources.twitter 6d ago 1 min read

Cohereは2026年3月28日、Transcribeがreal-world noise環境でspeech recognition accuracyの新しい基準を示すと述べ、試用リンクを共有した。関連するHugging Face資料ではApache 2.0の2B-parameter・14-language ASR modelとして位置づけられ、別のWebGPU demoはこのmodelがbrowser上でローカル動作することを示している。

AI Hacker News 3d ago 1 min read

TimesFM を扱った Hacker News の投稿は 254 points、95 comments を集め、単なる GitHub リポジトリ紹介ではなく、汎用 time-series foundation model が本当に複数ドメインへ一般化できるのかという議論へ発展した。コメントは TimesFM 2.5 の更新点に加え、trust、explainability、Prophet や Nixtla との比較に集中した。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.