Google DeepMind, 인터랙티브 월드 모델 ‘Genie 3’ 공개
Original: Genie 3: A new frontier for world models View original →
Genie 3는 ‘보는 영상’에서 ‘들어가서 조작하는 세계’로 초점을 이동
Google DeepMind는 2026년 1월 29일 ‘Genie 3: A new frontier for world models’를 발표했다. 핵심은 텍스트 또는 이미지 프롬프트에서 시작해 사용자가 카메라 이동과 객체 상호작용을 직접 수행할 수 있는 인터랙티브 환경을 생성한다는 점이다. 기존 video generation이 단방향 재생에 머무르는 경우가 많았다면, Genie 3는 사용자의 입력에 반응하는 동적 세계를 목표로 한다.
기술 지표로는 720p 해상도, 24fps 생성 속도, 그리고 1분 이상 일관된 세계 유지가 제시됐다. DeepMind는 이를 통해 단순한 짧은 클립 생성이 아니라 탐색 가능한 시뮬레이션에 가까운 사용성을 만들었다고 설명한다. 사용자가 이동 경로를 바꾸거나 특정 대상을 조작해도 장면의 물리적·맥락적 정합성을 가능한 한 유지하는 것이 제품 가치의 중심이다.
Genie 3는 Dream, Explore, Collaborate의 세 가지 모드를 제공한다. Dream은 프롬프트 기반 세계 생성에 집중하고, Explore는 생성된 공간 탐색과 경로 분기를 강조하며, Collaborate는 인간과 AI가 공동으로 시나리오를 확장하는 흐름을 지원한다. 이 구조는 단순 콘텐츠 제작뿐 아니라 프로토타이핑, 시뮬레이션 기반 학습, 인터랙션 테스트 등 개발·연구 작업에도 연결될 수 있다.
적용 관점에서 의미 있는 지점은 embodied AI 연구와 가상 환경 기반 평가다. 실제 로봇 실험은 비용과 안전 제약이 크기 때문에, 상호작용 가능한 world model은 정책 탐색과 행동 계획 평가를 빠르게 반복할 수 있는 중간 계층이 된다. 또한 게임·미디어 영역에서도 사용자 입력이 결과를 바꾸는 생성형 경험을 구현하는 기반 기술로 활용 가능성이 높다.
다만 DeepMind가 강조하듯, world model의 품질 평가는 해상도나 프레임 속도만으로 끝나지 않는다. 장기 일관성, 사용자 입력에 대한 안정적 반응, 오브젝트 상태 추적, 안전 가드레일이 함께 충족돼야 실제 서비스에 투입될 수 있다. Genie 3는 생성형 AI가 ‘출력 중심’ 단계에서 ‘상호작용 중심’ 단계로 넘어가는 흐름을 보여주는 대표 사례다.
Related Articles
r/MachineLearning에서 공유된 새 arXiv 논문은 unofficial model access provider가 연구 결과와 운영 신뢰성을 모두 흔들 수 있다고 지적한다.
Anthropic는 Claude Opus 4.6이 Mozilla와의 2주 협업에서 Firefox 취약점 22건을 발견했다고 밝혔다. Mozilla는 이 가운데 14건을 high severity로 분류했고, Firefox 148.0에 수정 사항을 반영했다.
Runway가 2026년 3월 9일 GWM-1 기반 real-time video agent API인 Runway Characters를 공개했다. single image만으로 fine-tuning 없이 conversational avatar를 만들고, voice·personality·knowledge·actions를 API로 제어할 수 있다고 설명했다.
Comments (0)
No comments yet. Be the first to comment!