HY-World 2.0, 탐색 가능한 3D world model의 code와 weights를 열다

HY-World 2.0은 world model이 video clip 생성에 머물지 않고 실제로 탐색 가능한 3D 공간으로 가려는 흐름을 보여준다. Team HY-World는 2026년 4월 15일 17:59:17 UTC에 제출된 arXiv paper에서 text prompt, single-view image, multi-view image, video로부터 3D world를 reconstruct, generate, simulate하는 multimodal framework를 설명했다.

출력은 단순한 2D 결과물이 아니다. HY-World 2.0은 3D world representation을 만들며, text나 single image 입력으로 high-fidelity navigable 3D Gaussian Splatting scene을 합성한다고 보고했다. Pipeline은 네 단계로 나뉜다. HY-Pano 2.0을 이용한 Panorama Generation, WorldNav를 통한 Trajectory Planning, WorldStereo 2.0 기반 World Expansion, WorldMirror 2.0을 활용한 World Composition이다.

논문은 WorldLens라는 rendering platform도 함께 제시한다. 저자들은 engine-agnostic architecture, automatic IBL lighting, efficient collision detection, training-rendering co-design, character exploration support를 특징으로 든다. World model이 실제로 쓸모 있으려면 생성된 장면을 보기만 하는 것이 아니라 사용자가 움직이고, simulator가 확인하고, embodied agent가 탐색할 수 있어야 한다는 점에서 중요하다.

이번 release가 눈에 띄는 이유는 openness다. 저자들은 model weights, code, technical details를 공개한다고 했고, 여러 benchmark에서 open-source approaches 중 가장 강한 결과를 내며 closed-source model Marble과 comparable한 결과를 냈다고 보고했다. 물론 이 주장은 외부 검증이 필요하다. 특히 paper의 polished examples를 벗어난 장면, 특이한 geometry, downstream simulation task에서 얼마나 버티는지가 관건이다.

Developer에게 code와 weights는 평가 방식을 바꾼다. Curated video만 보고 품질을 추정하는 대신 camera path, lighting assumption, memory consistency, collision behavior를 직접 시험할 수 있다. 인상적인 media model과 stress test가 가능한 tool 사이의 차이가 여기서 갈린다.

가까운 활용처는 generative media에만 머물지 않는다. 탐색 가능한 3D world model은 game prototyping, synthetic data, robotics simulation, spatial reasoning research, interactive scene editing에 모두 닿아 있다. 다음 질문은 분명하다. 사용자가 예상 밖의 경로로 밀어붙일 때도 geometry, physics cue, object consistency를 유지할 수 있느냐다.

HY-World 2.0, 탐색 가능한 3D world model의 code와 weights를 열다

Related Articles

Rocket League로 학습한 MIRA, multiplayer world model 실험의 관전점

FLUX 3, 영상·오디오·액션을 한 모델에 묶은 이유

Google DeepMind, 인터랙티브 월드 모델 ‘Genie 3’ 공개

Related Articles

Rocket League로 학습한 MIRA, multiplayer world model 실험의 관전점
AI Reddit Jul 8, 2026 1 min read

FLUX 3, 영상·오디오·액션을 한 모델에 묶은 이유

Google DeepMind, 인터랙티브 월드 모델 ‘Genie 3’ 공개
AI Feb 20, 2026 1 min read