Google DeepMind, D4RT 공개… 4D scene reconstruction을 최대 300배 효율화
Original: D4RT: Teaching AI to see the world in four dimensions View original →
Google DeepMind는 2026년 1월 22일 D4RT를 공개하며 AI가 공간의 3차원뿐 아니라 시간 축까지 함께 이해하도록 만드는 unified model을 제시했다. D4RT는 Dynamic 4D Reconstruction and Tracking의 약자로, video 속 물체와 camera의 움직임을 분리해 파악하면서 특정 시점과 시야에서 pixel이 3D space 어디에 있는지를 추적하는 데 초점을 맞춘다.
DeepMind에 따르면 기존 4D reconstruction 파이프라인은 depth, motion, camera pose를 따로 처리하는 여러 모델과 최적화 단계를 이어 붙이는 방식이 많았다. 이 구조는 정확도는 높아도 속도가 느리고, dynamic object가 겹치거나 frame 밖으로 사라질 때 일관성이 쉽게 깨진다. D4RT는 encoder-decoder Transformer와 query-based interface를 결합해 이 문제를 하나의 framework 안에서 해결하려는 접근이다.
- Point Tracking: 다른 frame에서 물체가 보이지 않아도 3D trajectory를 예측
- Point Cloud Reconstruction: 별도의 per-video optimization 없이 장면의 3D structure를 복원
- Camera Pose Estimation: 서로 다른 view에서 얻은 3D snapshot을 정렬해 camera trajectory를 계산
- Efficiency: 기존 state of the art 대비 18배에서 300배 빠르며, 1분 길이 video를 single TPU에서 약 5초 만에 처리
속도 향상은 단순한 benchmark 개선을 넘어 use case를 바꾼다. DeepMind는 이전 방법이 같은 작업에 최대 10분까지 걸릴 수 있었던 반면, D4RT는 real-time applications를 염두에 둘 수 있을 만큼 효율적이라고 설명했다. 이는 dynamic environment를 즉시 이해해야 하는 robotics, low-latency spatial understanding이 필수인 AR, 그리고 physical reality를 더 정확하게 모델링해야 하는 world model 연구에 직접 연결된다.
또한 D4RT는 query를 병렬로 처리할 수 있기 때문에 전체 장면을 재구성할 때도 필요한 계산만 선택적으로 수행할 수 있다. 이 점은 compute cost를 줄이는 동시에 실사용 환경에서의 확장성을 높인다. DeepMind는 MPI Sintel, Aria Digital Twin, RE10k 같은 benchmark에서 정성적·정량적 개선을 제시하며, dynamic object handling과 camera pose accuracy 모두에서 강한 결과를 보였다고 밝혔다.
D4RT는 humanoid-robots와 embodied AI가 실제 세계를 더 안정적으로 인식하기 위한 기반 기술이라는 점에서 의미가 크다. AI가 단순히 한 장면을 인식하는 수준을 넘어, 시간이 흐르면서 무엇이 어떻게 바뀌는지까지 추적해야 안전한 navigation, manipulation, spatial computing이 가능해진다. DeepMind의 이번 발표는 그런 4D perception을 연구 단계에서 실시간 응용 단계로 끌어당기려는 시도로 볼 수 있다.
Related Articles
2026년 3월 16일 Popular Science 기사를 공유한 r/artificial 게시물은 590 points와 62 comments를 기록했다. 기사에 따르면 Niantic Spatial은 300억 장이 넘는 Pokémon Go 이미지를 기반으로 Visual Positioning System을 학습했고, 이제 Coco Robotics와 협력해 GPS가 불안정한 거리에서도 delivery robot가 centimeter-level precision으로 위치를 잡게 하려 한다.
Hugging Face는 2026년 3월 9일 LeRobot v0.5.0을 공개하며 첫 humanoid인 Unitree G1 지원, 새로운 robot learning policy, 더 빠른 dataset pipeline을 발표했다. 이번 릴리스는 Python 3.12+, Transformers v5, EnvHub, NVIDIA IsaacLab-Arena 통합까지 포함한다.
2026년 3월 15일 r/singularity의 LATENT 글은 3,150 points와 376 comments를 기록했다. 이 연구는 경기 전체 motion capture 대신 5시간 분량의 human motion fragment로 humanoid tennis policy를 학습하는 접근을 제시한다.
Comments (0)
No comments yet. Be the first to comment!