Google DeepMind、D4RTを発表: 2D動画から4Dシーン復元・追跡を単一モデルで統合
Original: D4RT: Teaching AI to see the world in four dimensions View original →
発表内容
Google DeepMindはD4RT(Dynamic 4D Reconstruction and Tracking)を発表した。D4RTは2D動画から、空間3次元に時間を加えた4Dの動的シーンを復元・追跡するための統合モデルである。元記事にはJanuary 22, 2026の公開日と、2026-02-16の更新時刻が記載されている。
技術のポイント
動的シーン理解では、物体の移動、カメラ運動、遮蔽などを同時に扱う必要がある。従来はdepth推定、motion推定、camera推定を分割した複数モジュール構成が多く、計算負荷や統合の複雑さが課題だった。DeepMindはD4RTをunified encoder-decoder Transformerとして設計し、単一のqueryベース手法で必要情報を取り出す方式を採る。
中核となる問いは、入力動画の特定pixelが、任意の時間と選択したcamera視点で3D空間のどこにあるか、というもの。エンコーダが幾何と運動を圧縮表現にまとめ、軽量デコーダが必要なqueryのみを解く。queryが独立しているため並列処理しやすく、高速化とスケール性につながる。
インパクト
DeepMindはD4RTが従来手法より最大300x効率的と説明し、roboticsやaugmented realityを含むリアルタイム用途に適した特性を示した。重要なのは速度だけでなく、4D知覚を分断されたパイプラインから統合アーキテクチャへ移した点だ。video理解を前提とするagentやembodied AIにとって、実運用時の複雑性を下げつつ、動きや遮蔽が多い環境でも一貫した推論を行う基盤になり得る。
Source page: https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/
Related Articles
Hacker Newsで注目されたLoGeRは、Google DeepMindとUC Berkeleyによる長文脈3D再構成モデルで、hybrid memoryによって後処理最適化なしで非常に長い動画を扱うとする。
r/MachineLearningで共有された VeridisQuo は、EfficientNet-B4 の spatial stream と FFT/DCT の frequency feature を組み合わせ、GradCAM で顔のどこが deepfake 判定に効いたかを可視化する。
r/MachineLearningで支持を集めたVeridisQuoは、spatial signalとfrequency-domain signalを統合し、GradCAM heatmapを改変ビデオ上に重ねるオープンソースdeepfake detectorだ。単なるデモ映像ではなく、具体的なarchitectureとtraining detailsが共有されている点が特徴だ。
Comments (0)
No comments yet. Be the first to comment!