Google DeepMind、D4RTを公開 4D scene reconstructionを最大300倍効率化
Original: D4RT: Teaching AI to see the world in four dimensions View original →
Google DeepMindは2026年1月22日、D4RTを公開し、AIが3D geometryだけでなく時間方向の変化までまとめて理解するためのunified modelを示した。D4RTはDynamic 4D Reconstruction and Trackingの略で、video内のobjectとcamera motionを切り分けながら、あるpixelが任意の時刻と視点で3D spaceのどこにあるかを推定する。
DeepMindによれば、従来の4D reconstructionはdepth、motion、camera poseを別々のsystemで処理することが多く、精度は高くても処理が重く、dynamic sceneでは整合性が崩れやすかった。D4RTはencoder-decoder Transformerとquery-based interfaceを組み合わせ、必要な問いにだけ答える形でこの問題を一つのframeworkにまとめている。
- Point Tracking: objectが後続frameで見えなくなっても3D trajectoryを予測できる
- Point Cloud Reconstruction: separate camera estimationやper-video optimizationなしでsceneの3D structureを復元
- Camera Pose Estimation: 異なるviewから得た3D snapshotを整列してcamera trajectoryを求める
- Efficiency: 従来法比で18倍から300倍高速、1分動画をsingle TPUで約5秒処理
この効率改善はbenchmark上の数字にとどまらない。DeepMindは、同じ1分動画に対して従来のstate-of-the-art methodでは最大10分かかる場合があったのに対し、D4RTはreal-time applicationを視野に入れられる速度まで短縮したと説明している。queryを独立して並列処理できるため、必要な計算だけを柔軟に呼び出せるのも利点だ。
応用範囲も広い。Roboticsでは、人や物体が動く環境で安全なnavigationやmanipulationを行うために、sceneの時空間理解が欠かせない。ARでは、digital objectを現実空間に安定して重ねるためにlow-latencyなgeometry理解が必要になる。さらにworld modelsの文脈でも、camera motion、object motion、static geometryを一つの表現で扱えることは重要な前進になる。
DeepMindはMPI Sintel、Aria Digital Twin、RE10kでの結果を通じて、dynamic object handlingとcamera pose recoveryの両面で強い性能を示したとしている。高精度な4D perceptionを重いoffline処理から引き離し、embodied AIやspatial computingの実用段階へ近づけた点で、D4RTは2026年のrobotics researchの中でも重要な技術更新といえる。
Related Articles
2026年3月16日、Popular Science記事を共有したr/artificial投稿は590 points、62 commentsに達した。記事によれば、Niantic Spatialは300億枚超のPokémon Go imageでVisual Positioning Systemを訓練し、いまはCoco Roboticsと組んで、GPSが不安定な街路でもdelivery robotがcentimeter-level precisionで自己位置推定できるようにしようとしている。
Hugging Faceは2026年3月9日、LeRobot v0.5.0を公開し、初のhumanoidであるUnitree G1対応、新しいrobot learning policy、高速化したdataset pipelineを導入した。Python 3.12+、Transformers v5、EnvHub、NVIDIA IsaacLab-Arena統合も含まれる。
NVIDIAは2026年3月16日、robotics、vision AI agents、autonomous vehicles向けに学習データを生成・増強・評価するための open reference architecture である Physical AI Data Factory Blueprint を公開した。NVIDIAは、このスタックが Cosmos モデル、coding agents、Microsoft Azure や Nebius などの cloud infrastructure を組み合わせ、physical AI 学習のコストと時間を下げると説明している。
Comments (0)
No comments yet. Be the first to comment!