Google DeepMind、D4RTを発表: 2D動画から4Dシーン復元・追跡を単一モデルで統合
Original: D4RT: Teaching AI to see the world in four dimensions View original →
発表内容
Google DeepMindはD4RT(Dynamic 4D Reconstruction and Tracking)を発表した。D4RTは2D動画から、空間3次元に時間を加えた4Dの動的シーンを復元・追跡するための統合モデルである。元記事にはJanuary 22, 2026の公開日と、2026-02-16の更新時刻が記載されている。
技術のポイント
動的シーン理解では、物体の移動、カメラ運動、遮蔽などを同時に扱う必要がある。従来はdepth推定、motion推定、camera推定を分割した複数モジュール構成が多く、計算負荷や統合の複雑さが課題だった。DeepMindはD4RTをunified encoder-decoder Transformerとして設計し、単一のqueryベース手法で必要情報を取り出す方式を採る。
中核となる問いは、入力動画の特定pixelが、任意の時間と選択したcamera視点で3D空間のどこにあるか、というもの。エンコーダが幾何と運動を圧縮表現にまとめ、軽量デコーダが必要なqueryのみを解く。queryが独立しているため並列処理しやすく、高速化とスケール性につながる。
インパクト
DeepMindはD4RTが従来手法より最大300x効率的と説明し、roboticsやaugmented realityを含むリアルタイム用途に適した特性を示した。重要なのは速度だけでなく、4D知覚を分断されたパイプラインから統合アーキテクチャへ移した点だ。video理解を前提とするagentやembodied AIにとって、実運用時の複雑性を下げつつ、動きや遮蔽が多い環境でも一貫した推論を行う基盤になり得る。
Source page: https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/
Related Articles
画像生成モデルが視覚理解の中心へ入ってきた。DeepMindはNano Banana ProベースのVision Bananaが、軽量なinstruction tuningだけでSegment Anything系やDepth Anything系と競り合い、複数の2D・3D課題でstate-of-the-artに達したと説明している。
Metaは2026年3月27日、SAM 3.1をSAM 3のdrop-in updateとして公開し、object multiplexingでvideo processing efficiencyを高めたと発表した。projectのrelease noteによれば、この更新はshared-memoryベースのjoint multi-object tracking、新checkpoint、そして2025年11月版SAM 3と比べてsingle H100で128 object時に約7倍の高速化を含む。
HNがこのRAM shortage storyに反応した理由は、AI data center向けHBM需要がphones、laptops、handheldsの価格にもつながるという物理的な連鎖だった。
Comments (0)
No comments yet. Be the first to comment!