Google DeepMind、D4RTを公開 4D scene reconstructionを最大300倍効率化

Original: D4RT: Teaching AI to see the world in four dimensions View original →

Read in other languages: 한국어English
Humanoid Robots Mar 23, 2026 By Insights AI 1 min read 1 views Source

Google DeepMindは2026年1月22日、D4RTを公開し、AIが3D geometryだけでなく時間方向の変化までまとめて理解するためのunified modelを示した。D4RTはDynamic 4D Reconstruction and Trackingの略で、video内のobjectとcamera motionを切り分けながら、あるpixelが任意の時刻と視点で3D spaceのどこにあるかを推定する。

DeepMindによれば、従来の4D reconstructionはdepth、motion、camera poseを別々のsystemで処理することが多く、精度は高くても処理が重く、dynamic sceneでは整合性が崩れやすかった。D4RTはencoder-decoder Transformerとquery-based interfaceを組み合わせ、必要な問いにだけ答える形でこの問題を一つのframeworkにまとめている。

  • Point Tracking: objectが後続frameで見えなくなっても3D trajectoryを予測できる
  • Point Cloud Reconstruction: separate camera estimationやper-video optimizationなしでsceneの3D structureを復元
  • Camera Pose Estimation: 異なるviewから得た3D snapshotを整列してcamera trajectoryを求める
  • Efficiency: 従来法比で18倍から300倍高速、1分動画をsingle TPUで約5秒処理

この効率改善はbenchmark上の数字にとどまらない。DeepMindは、同じ1分動画に対して従来のstate-of-the-art methodでは最大10分かかる場合があったのに対し、D4RTはreal-time applicationを視野に入れられる速度まで短縮したと説明している。queryを独立して並列処理できるため、必要な計算だけを柔軟に呼び出せるのも利点だ。

応用範囲も広い。Roboticsでは、人や物体が動く環境で安全なnavigationやmanipulationを行うために、sceneの時空間理解が欠かせない。ARでは、digital objectを現実空間に安定して重ねるためにlow-latencyなgeometry理解が必要になる。さらにworld modelsの文脈でも、camera motion、object motion、static geometryを一つの表現で扱えることは重要な前進になる。

DeepMindはMPI Sintel、Aria Digital Twin、RE10kでの結果を通じて、dynamic object handlingとcamera pose recoveryの両面で強い性能を示したとしている。高精度な4D perceptionを重いoffline処理から引き離し、embodied AIやspatial computingの実用段階へ近づけた点で、D4RTは2026年のrobotics researchの中でも重要な技術更新といえる。

Share: Long

Related Articles

Humanoid Robots Reddit 5d ago 1 min read

2026年3月16日、Popular Science記事を共有したr/artificial投稿は590 points、62 commentsに達した。記事によれば、Niantic Spatialは300億枚超のPokémon Go imageでVisual Positioning Systemを訓練し、いまはCoco Roboticsと組んで、GPSが不安定な街路でもdelivery robotがcentimeter-level precisionで自己位置推定できるようにしようとしている。

Humanoid Robots sources.twitter 6d ago 1 min read

NVIDIAは2026年3月16日、robotics、vision AI agents、autonomous vehicles向けに学習データを生成・増強・評価するための open reference architecture である Physical AI Data Factory Blueprint を公開した。NVIDIAは、このスタックが Cosmos モデル、coding agents、Microsoft Azure や Nebius などの cloud infrastructure を組み合わせ、physical AI 学習のコストと時間を下げると説明している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.