HY-World 2.0, 탐색 가능한 3D world model의 code와 weights를 열다
Original: HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds View original →
HY-World 2.0은 world model이 video clip 생성에 머물지 않고 실제로 탐색 가능한 3D 공간으로 가려는 흐름을 보여준다. Team HY-World는 2026년 4월 15일 17:59:17 UTC에 제출된 arXiv paper에서 text prompt, single-view image, multi-view image, video로부터 3D world를 reconstruct, generate, simulate하는 multimodal framework를 설명했다.
출력은 단순한 2D 결과물이 아니다. HY-World 2.0은 3D world representation을 만들며, text나 single image 입력으로 high-fidelity navigable 3D Gaussian Splatting scene을 합성한다고 보고했다. Pipeline은 네 단계로 나뉜다. HY-Pano 2.0을 이용한 Panorama Generation, WorldNav를 통한 Trajectory Planning, WorldStereo 2.0 기반 World Expansion, WorldMirror 2.0을 활용한 World Composition이다.
논문은 WorldLens라는 rendering platform도 함께 제시한다. 저자들은 engine-agnostic architecture, automatic IBL lighting, efficient collision detection, training-rendering co-design, character exploration support를 특징으로 든다. World model이 실제로 쓸모 있으려면 생성된 장면을 보기만 하는 것이 아니라 사용자가 움직이고, simulator가 확인하고, embodied agent가 탐색할 수 있어야 한다는 점에서 중요하다.
이번 release가 눈에 띄는 이유는 openness다. 저자들은 model weights, code, technical details를 공개한다고 했고, 여러 benchmark에서 open-source approaches 중 가장 강한 결과를 내며 closed-source model Marble과 comparable한 결과를 냈다고 보고했다. 물론 이 주장은 외부 검증이 필요하다. 특히 paper의 polished examples를 벗어난 장면, 특이한 geometry, downstream simulation task에서 얼마나 버티는지가 관건이다.
Developer에게 code와 weights는 평가 방식을 바꾼다. Curated video만 보고 품질을 추정하는 대신 camera path, lighting assumption, memory consistency, collision behavior를 직접 시험할 수 있다. 인상적인 media model과 stress test가 가능한 tool 사이의 차이가 여기서 갈린다.
가까운 활용처는 generative media에만 머물지 않는다. 탐색 가능한 3D world model은 game prototyping, synthetic data, robotics simulation, spatial reasoning research, interactive scene editing에 모두 닿아 있다. 다음 질문은 분명하다. 사용자가 예상 밖의 경로로 밀어붙일 때도 geometry, physics cue, object consistency를 유지할 수 있느냐다.
Related Articles
Google DeepMind가 텍스트·이미지 프롬프트로 생성된 환경을 실시간 상호작용할 수 있는 Genie 3를 발표했다. 720p, 24fps로 1분 이상 일관된 세계를 유지하며 Dream/Explore/Collaborate 모드를 제공한다.
Google DeepMind의 세계 모델 Project Genie가 Street View와 통합됐다. 지도 핀 하나로 실제 장소를 360도 인터랙티브 환경으로 변환하며, Waymo 자율주행 훈련에도 활용된다.
Meituan LongCat 팀이 음성·이미지·텍스트 기반 아바타 영상 모델 LongCat-Video-Avatar 1.5를 공개했다. Hugging Face 모델 카드는 MIT 라이선스와 Diffusers 사용 예시를 제공한다.