Google DeepMind、D4RTを発表: 2D動画から4Dシーン復元・追跡を単一モデルで統合

Original: D4RT: Teaching AI to see the world in four dimensions View original →

Read in other languages: 한국어English
AI Feb 16, 2026 By Insights AI 1 min read 1 views Source

発表内容

Google DeepMindはD4RT(Dynamic 4D Reconstruction and Tracking)を発表した。D4RTは2D動画から、空間3次元に時間を加えた4Dの動的シーンを復元・追跡するための統合モデルである。元記事にはJanuary 22, 2026の公開日と、2026-02-16の更新時刻が記載されている。

技術のポイント

動的シーン理解では、物体の移動、カメラ運動、遮蔽などを同時に扱う必要がある。従来はdepth推定、motion推定、camera推定を分割した複数モジュール構成が多く、計算負荷や統合の複雑さが課題だった。DeepMindはD4RTをunified encoder-decoder Transformerとして設計し、単一のqueryベース手法で必要情報を取り出す方式を採る。

中核となる問いは、入力動画の特定pixelが、任意の時間と選択したcamera視点で3D空間のどこにあるか、というもの。エンコーダが幾何と運動を圧縮表現にまとめ、軽量デコーダが必要なqueryのみを解く。queryが独立しているため並列処理しやすく、高速化とスケール性につながる。

インパクト

DeepMindはD4RTが従来手法より最大300x効率的と説明し、roboticsやaugmented realityを含むリアルタイム用途に適した特性を示した。重要なのは速度だけでなく、4D知覚を分断されたパイプラインから統合アーキテクチャへ移した点だ。video理解を前提とするagentやembodied AIにとって、実運用時の複雑性を下げつつ、動きや遮蔽が多い環境でも一貫した推論を行う基盤になり得る。

Source page: https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.