Cosmos 3, 8B·32B 타워로 물리 AI 추론·세계 생성·로봇 행동 모델까지 통합 시작
Original: NVIDIA Cosmos 3 unifies reasoning, world generation, and robot action View original →
로봇과 자율주행 모델 개발의 병목은 언어 추론보다 물리 세계의 예측·시뮬레이션·행동 생성에 있다. NVIDIA는 2026년 6월 1일 X에서 Cosmos 3를 “vision reasoning, world and action generation”을 기본 기능으로 갖춘 완전 공개 omnimodel이라고 소개했다.
트윗에서 중요한 숫자는 Super와 Nano 두 변형이다. NVIDIA의 기술 블로그는 Cosmos 3 Nano와 Cosmos 3 Super 체크포인트가 Hugging Face에 있고, GitHub에는 도메인 적응을 위한 post-training scripts가 공개됐다고 설명한다. 공개 자료에 따르면 Nano는 8B reasoner와 8B generator, Super는 32B reasoner와 32B generator 조합으로 이해할 수 있다. 원문 트윗은 이 모델을 Physical AI용 frontier model로 배치했다.
구조의 핵심은 Mixture-of-Transformers다. 한 타워는 언어와 이산적 이해를 위한 autoregressive reasoner로, 다른 타워는 이미지·비디오·오디오·action trajectory 생성을 위한 diffusion generator로 작동한다. NVIDIA는 Cosmos 3가 VANTAGE-Bench, Physics-IQ, PAI-Bench, R-Bench, RoboLab 등 물리 AI 추론·생성·정책 벤치마크에서 선두권 결과를 냈다고 적었다. 또 robotics, physics simulation, spatial reasoning, human motion, driving, warehouse environments를 포함한 6개 synthetic data generation 데이터세트도 Hugging Face에 공개한다고 밝혔다.
다음 관전점은 “open”의 실제 사용성이다. 체크포인트, 코드, 레시피가 있어도 대형 모델의 하드웨어 비용과 라이선스 조건, NIM 기반 배포 제약이 개발자의 선택을 가른다. Cosmos 3가 로봇 정책 학습과 합성 데이터 생성에서 반복 비용을 얼마나 줄이는지가 실전 평가의 기준이다.
Related Articles
NVIDIA가 Unitree H2 Plus, Sharpa 5-finger hands, Jetson AGX Thor T5000을 묶은 open humanoid reference design을 공개했다. 75 degrees of freedom, 2,070 FP4 TFLOPS, 약 3시간 배터리가 연구실의 비교 가능한 humanoid 실험 기준을 겨냥한다.
NVIDIA는 2026년 3월 16일 robotics, vision AI agent, autonomous vehicle 개발을 겨냥한 Open Physical AI Data Factory Blueprint를 공개했다. 핵심은 scarce real-world data를 synthetic data와 automated evaluation으로 확장해 physical AI 개발 속도를 높이겠다는 것이다.
NVIDIA는 2026년 3월 20일 Cosmos world foundation model 계열이 Transfer 2.5, Predict 2.5, Reason 2로 다시 진화했다고 밝혔다. 연결된 NVIDIA Technical Blog는 이번 업데이트를 고품질 synthetic data 생성, long-tail scenario 보강, 로봇·자율주행용 physical reasoning 강화로 설명한다.
Comments (0)
No comments yet. Be the first to comment!