Google DeepMind、D4RTを発表: 2D動画から4Dシーン復元・追跡を単一モデルで統合

発表内容

Google DeepMindはD4RT（Dynamic 4D Reconstruction and Tracking）を発表した。D4RTは2D動画から、空間3次元に時間を加えた4Dの動的シーンを復元・追跡するための統合モデルである。元記事にはJanuary 22, 2026の公開日と、2026-02-16の更新時刻が記載されている。

技術のポイント

動的シーン理解では、物体の移動、カメラ運動、遮蔽などを同時に扱う必要がある。従来はdepth推定、motion推定、camera推定を分割した複数モジュール構成が多く、計算負荷や統合の複雑さが課題だった。DeepMindはD4RTをunified encoder-decoder Transformerとして設計し、単一のqueryベース手法で必要情報を取り出す方式を採る。

中核となる問いは、入力動画の特定pixelが、任意の時間と選択したcamera視点で3D空間のどこにあるか、というもの。エンコーダが幾何と運動を圧縮表現にまとめ、軽量デコーダが必要なqueryのみを解く。queryが独立しているため並列処理しやすく、高速化とスケール性につながる。

インパクト

DeepMindはD4RTが従来手法より最大300x効率的と説明し、roboticsやaugmented realityを含むリアルタイム用途に適した特性を示した。重要なのは速度だけでなく、4D知覚を分断されたパイプラインから統合アーキテクチャへ移した点だ。video理解を前提とするagentやembodied AIにとって、実運用時の複雑性を下げつつ、動きや遮蔽が多い環境でも一貫した推論を行う基盤になり得る。

Source page: https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

AI 3d ago 1 min read

Vision Banana、画像生成モデルを汎用ビジョン基盤へ押し上げる

画像生成モデルが視覚理解の中心へ入ってきた。DeepMindはNano Banana ProベースのVision Bananaが、軽量なinstruction tuningだけでSegment Anything系やDepth Anything系と競り合い、複数の2D・3D課題でstate-of-the-artに達したと説明している。

#google-deepmind #computer-vision #vision-banana

AI sources.twitter Mar 31, 2026 1 min read

Meta、object multiplexingを導入したSAM 3.1を公開、multi-object video trackingを高速化

Metaは2026年3月27日、SAM 3.1をSAM 3のdrop-in updateとして公開し、object multiplexingでvideo processing efficiencyを高めたと発表した。projectのrelease noteによれば、この更新はshared-memoryベースのjoint multi-object tracking、新checkpoint、そして2025年11月版SAM 3と比べてsingle H100で128 object時に約7倍の高速化を含む。

#meta #sam3 #computer-vision

AI Hacker News Apr 20, 2026 1 min read

AI data center発のRAM不足、HNはconsumer hardwareへの波及を見た

HNがこのRAM shortage storyに反応した理由は、AI data center向けHBM需要がphones、laptops、handheldsの価格にもつながるという物理的な連鎖だった。

#ai-infrastructure #memory #hbm