Google DeepMind, D4RT 공개: 2D 비디오에서 4D 장면 복원·추적을 단일 모델로 통합

Original: D4RT: Teaching AI to see the world in four dimensions View original →

Read in other languages: English日本語
AI Feb 16, 2026 By Insights AI 1 min read 2 views Source

발표 개요

Google DeepMind는 D4RT(Dynamic 4D Reconstruction and Tracking)를 공개했다. D4RT는 2D 비디오 입력으로부터 시간 축을 포함한 4D 장면을 복원하고 추적하는 과정을 하나의 통합 모델로 처리하도록 설계됐다. 원문 게시일은 January 22, 2026이며 수정 시각은 2026-02-16로 표시된다.

기존 접근과의 차이

동적 장면 이해에서는 객체 움직임, 카메라 움직임, 가림(occlusion) 등을 동시에 다뤄야 한다. 기존에는 depth, motion, camera pose를 각각 다른 모듈로 나누는 파이프라인이 많아 계산 비용이 크고 결과가 단절되기 쉬웠다. DeepMind는 D4RT가 unified encoder-decoder Transformer 구조와 query 기반 메커니즘을 통해 이 문제를 단일 프레임워크에서 다룬다고 설명한다.

핵심 질의는 '주어진 비디오의 특정 pixel이 임의의 시간·선택된 camera 시점에서 3D 공간 어디에 있는가'다. 인코더가 장면의 기하·운동 정보를 압축 표현으로 만들고, 경량 디코더가 필요한 질의만 계산한다. 질의가 독립적이어서 병렬 처리에 유리하다는 점도 강조됐다.

효율성과 활용성

발표문에서 DeepMind는 D4RT가 이전 방법 대비 최대 300x 효율적이라고 제시했다. 이 수치는 대규모 장면 복원에서도 속도 병목을 낮춰 실시간에 가까운 응용을 가능하게 한다는 주장과 연결된다. 예시 활용 영역으로는 robotics, augmented reality, 기타 실시간 perception 작업이 언급됐다.

결국 D4RT의 의미는 단순 성능 수치보다, 공간과 시간이 결합된 동적 현실을 하나의 모델로 해석하려는 방향을 명확히 보여준 데 있다. 비디오 기반 world understanding을 agent·로봇 시스템에 직접 연결하려는 흐름에서, 계산 효율과 통합 아키텍처를 함께 제시한 점이 이번 발표의 핵심 가치다.

Source page: https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.