Google DeepMind、D4RTを発表: 2D動画から4Dシーン復元・追跡を単一モデルで統合
Original: D4RT: Teaching AI to see the world in four dimensions View original →
発表内容
Google DeepMindはD4RT(Dynamic 4D Reconstruction and Tracking)を発表した。D4RTは2D動画から、空間3次元に時間を加えた4Dの動的シーンを復元・追跡するための統合モデルである。元記事にはJanuary 22, 2026の公開日と、2026-02-16の更新時刻が記載されている。
技術のポイント
動的シーン理解では、物体の移動、カメラ運動、遮蔽などを同時に扱う必要がある。従来はdepth推定、motion推定、camera推定を分割した複数モジュール構成が多く、計算負荷や統合の複雑さが課題だった。DeepMindはD4RTをunified encoder-decoder Transformerとして設計し、単一のqueryベース手法で必要情報を取り出す方式を採る。
中核となる問いは、入力動画の特定pixelが、任意の時間と選択したcamera視点で3D空間のどこにあるか、というもの。エンコーダが幾何と運動を圧縮表現にまとめ、軽量デコーダが必要なqueryのみを解く。queryが独立しているため並列処理しやすく、高速化とスケール性につながる。
インパクト
DeepMindはD4RTが従来手法より最大300x効率的と説明し、roboticsやaugmented realityを含むリアルタイム用途に適した特性を示した。重要なのは速度だけでなく、4D知覚を分断されたパイプラインから統合アーキテクチャへ移した点だ。video理解を前提とするagentやembodied AIにとって、実運用時の複雑性を下げつつ、動きや遮蔽が多い環境でも一貫した推論を行う基盤になり得る。
Source page: https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/
Related Articles
AIスタートアップのShiftが、ニューヨーク住民に無料の家事清掃サービスを提供する代わりに、カメラ付き特殊帽子「マジックハット」を装着した清掃員の作業映像を収集し、家庭用ロボットの訓練データとして活用する計画だ。
Google DeepMindの世界モデルGenieがStreet Viewと統合された。地図のピンを選ぶだけで実際の場所を360度インタラクティブな空間に変換でき、Waymoの自動運転訓練にも活用される。
Codexは開発支援から職種別workflowの表面へ広がっている。OpenAIは新pluginに62アプリと110スキルを束ね、Business・Enterprise向けSites previewも始めた。