Google DeepMind, D4RT 공개… 4D scene reconstruction을 최대 300배 효율화

Google DeepMind는 2026년 1월 22일 D4RT를 공개하며 AI가 공간의 3차원뿐 아니라 시간 축까지 함께 이해하도록 만드는 unified model을 제시했다. D4RT는 Dynamic 4D Reconstruction and Tracking의 약자로, video 속 물체와 camera의 움직임을 분리해 파악하면서 특정 시점과 시야에서 pixel이 3D space 어디에 있는지를 추적하는 데 초점을 맞춘다.

DeepMind에 따르면 기존 4D reconstruction 파이프라인은 depth, motion, camera pose를 따로 처리하는 여러 모델과 최적화 단계를 이어 붙이는 방식이 많았다. 이 구조는 정확도는 높아도 속도가 느리고, dynamic object가 겹치거나 frame 밖으로 사라질 때 일관성이 쉽게 깨진다. D4RT는 encoder-decoder Transformer와 query-based interface를 결합해 이 문제를 하나의 framework 안에서 해결하려는 접근이다.

Point Tracking: 다른 frame에서 물체가 보이지 않아도 3D trajectory를 예측
Point Cloud Reconstruction: 별도의 per-video optimization 없이 장면의 3D structure를 복원
Camera Pose Estimation: 서로 다른 view에서 얻은 3D snapshot을 정렬해 camera trajectory를 계산
Efficiency: 기존 state of the art 대비 18배에서 300배 빠르며, 1분 길이 video를 single TPU에서 약 5초 만에 처리

속도 향상은 단순한 benchmark 개선을 넘어 use case를 바꾼다. DeepMind는 이전 방법이 같은 작업에 최대 10분까지 걸릴 수 있었던 반면, D4RT는 real-time applications를 염두에 둘 수 있을 만큼 효율적이라고 설명했다. 이는 dynamic environment를 즉시 이해해야 하는 robotics, low-latency spatial understanding이 필수인 AR, 그리고 physical reality를 더 정확하게 모델링해야 하는 world model 연구에 직접 연결된다.

또한 D4RT는 query를 병렬로 처리할 수 있기 때문에 전체 장면을 재구성할 때도 필요한 계산만 선택적으로 수행할 수 있다. 이 점은 compute cost를 줄이는 동시에 실사용 환경에서의 확장성을 높인다. DeepMind는 MPI Sintel, Aria Digital Twin, RE10k 같은 benchmark에서 정성적·정량적 개선을 제시하며, dynamic object handling과 camera pose accuracy 모두에서 강한 결과를 보였다고 밝혔다.

D4RT는 humanoid-robots와 embodied AI가 실제 세계를 더 안정적으로 인식하기 위한 기반 기술이라는 점에서 의미가 크다. AI가 단순히 한 장면을 인식하는 수준을 넘어, 시간이 흐르면서 무엇이 어떻게 바뀌는지까지 추적해야 안전한 navigation, manipulation, spatial computing이 가능해진다. DeepMind의 이번 발표는 그런 4D perception을 연구 단계에서 실시간 응용 단계로 끌어당기려는 시도로 볼 수 있다.

Google DeepMind, D4RT 공개… 4D scene reconstruction을 최대 300배 효율화

Related Articles

r/artificial: Pokémon Go 이미지 코퍼스가 sidewalk delivery robot localization에 쓰이기 시작했다

Hugging Face, LeRobot v0.5.0 공개… 첫 humanoid 지원과 데이터·정책 스택 대폭 확장

r/singularity가 밀어올린 LATENT, humanoid tennis를 5시간 imperfect motion data로 학습

Comments (0)

Leave a Comment

Related Articles

r/artificial: Pokémon Go 이미지 코퍼스가 sidewalk delivery robot localization에 쓰이기 시작했다

Hugging Face, LeRobot v0.5.0 공개… 첫 humanoid 지원과 데이터·정책 스택 대폭 확장

r/singularity가 밀어올린 LATENT, humanoid tennis를 5시간 imperfect motion data로 학습