Google DeepMind、D4RTを公開　4D scene reconstructionを最大300倍効率化

Google DeepMindは2026年1月22日、D4RTを公開し、AIが3D geometryだけでなく時間方向の変化までまとめて理解するためのunified modelを示した。D4RTはDynamic 4D Reconstruction and Trackingの略で、video内のobjectとcamera motionを切り分けながら、あるpixelが任意の時刻と視点で3D spaceのどこにあるかを推定する。

DeepMindによれば、従来の4D reconstructionはdepth、motion、camera poseを別々のsystemで処理することが多く、精度は高くても処理が重く、dynamic sceneでは整合性が崩れやすかった。D4RTはencoder-decoder Transformerとquery-based interfaceを組み合わせ、必要な問いにだけ答える形でこの問題を一つのframeworkにまとめている。

Point Tracking: objectが後続frameで見えなくなっても3D trajectoryを予測できる
Point Cloud Reconstruction: separate camera estimationやper-video optimizationなしでsceneの3D structureを復元
Camera Pose Estimation: 異なるviewから得た3D snapshotを整列してcamera trajectoryを求める
Efficiency: 従来法比で18倍から300倍高速、1分動画をsingle TPUで約5秒処理

この効率改善はbenchmark上の数字にとどまらない。DeepMindは、同じ1分動画に対して従来のstate-of-the-art methodでは最大10分かかる場合があったのに対し、D4RTはreal-time applicationを視野に入れられる速度まで短縮したと説明している。queryを独立して並列処理できるため、必要な計算だけを柔軟に呼び出せるのも利点だ。

応用範囲も広い。Roboticsでは、人や物体が動く環境で安全なnavigationやmanipulationを行うために、sceneの時空間理解が欠かせない。ARでは、digital objectを現実空間に安定して重ねるためにlow-latencyなgeometry理解が必要になる。さらにworld modelsの文脈でも、camera motion、object motion、static geometryを一つの表現で扱えることは重要な前進になる。

DeepMindはMPI Sintel、Aria Digital Twin、RE10kでの結果を通じて、dynamic object handlingとcamera pose recoveryの両面で強い性能を示したとしている。高精度な4D perceptionを重いoffline処理から引き離し、embodied AIやspatial computingの実用段階へ近づけた点で、D4RTは2026年のrobotics researchの中でも重要な技術更新といえる。

Google DeepMind、D4RTを公開　4D scene reconstructionを最大300倍効率化

Related Articles

r/artificial: Pokémon Goのimage corpusがsidewalk delivery robotのlocalizationを支え始めた

Hugging Face、LeRobot v0.5.0を公開　初のhumanoid対応とdataset・policy stackを大幅拡張

NVIDIA、robotics・autonomy 向け Physical AI Data Factory Blueprint を公開

Comments (0)

Leave a Comment

Related Articles

r/artificial: Pokémon Goのimage corpusがsidewalk delivery robotのlocalizationを支え始めた

Hugging Face、LeRobot v0.5.0を公開　初のhumanoid対応とdataset・policy stackを大幅拡張

NVIDIA、robotics・autonomy 向け Physical AI Data Factory Blueprint を公開