Vision Banana, 이미지 생성기를 범용 시각 모델로 바꾸는 전환점
Original: Image Generators are Generalist Vision Learners View original →
컴퓨터 비전은 과제마다 다른 전문 모델을 늘려 왔다. 분할엔 분할 모델, 깊이 추정엔 depth 모델, 3D 이해엔 또 다른 모델이 붙었다. Google DeepMind 논문 페이지가 던지는 메시지는 반대다. 이미지 생성기 하나를 충분히 잘 학습시키면, 여러 시각 과제를 같은 생성 인터페이스 위에서 처리할 수 있다는 주장이다.
논문의 중심 모델은 Vision Banana다. Nano Banana Pro를 바탕으로 만들었고, 원래의 이미지 생성 데이터에 소량의 비전 과제 데이터를 더해 instruction tuning했다. 흥미로운 지점은 출력 형식이다. 팀은 분할, 깊이 추정, 기타 시각 과제를 별도 헤드로 나누지 않고 RGB 이미지 생성 문제로 다시 표현했다. 생성 능력을 그대로 활용하겠다는 선택이다.
DeepMind는 이 방식이 여러 2D·3D 이해 과제에서 state-of-the-art 결과를 냈다고 적었다. 특히 segmentation에서는 Segment Anything 계열을, metric depth estimation에서는 Depth Anything 계열을 따라잡거나 앞섰다고 설명한다. 생성 모델이 보기 좋은 그림을 만드는 수준을 넘어, 장면을 구조적으로 읽는 모델로 올라섰다는 선언에 가깝다.
더 눈에 띄는 대목은 비용 구조다. 논문은 Vision Banana가 모델을 처음부터 새로 짜는 방식이 아니라 가벼운 instruction tuning으로 성능을 끌어올렸고, 그 과정에서도 원래의 이미지 생성 능력을 잃지 않았다고 말한다. 이 주장이 맞으면, 같은 기반 모델이 생성, 분할, 깊이 추정 같은 작업을 함께 맡는 그림이 가능해진다.
아직 arXiv 결과이고, 벤치 구성과 일반화 범위를 더 뜯어봐야 한다. 그래도 방향은 선명하다. 업계가 생성 모델을 화려한 부가기능으로 다루던 단계는 끝났고, 시각 이해 전체를 묶는 기반 모델 후보로 보기 시작했다.
Related Articles
Google DeepMind의 Sierra Leone 교실 실험에서 학생들의 문제 접근 질문 비중이 68%에서 90%로 늘었다. 8주간 1,763명을 대상으로 한 RCT라는 점에서 교육용 AI 논의가 사용감이 아니라 행동 변화 지표로 이동했다.
Google DeepMind의 새 오디오 모델은 70개 이상 언어를 스트리밍 중 번역하고 말투와 속도, 음높이를 보존한다. Google Translate, Google AI Studio, Google Meet까지 배포 경로가 나뉜다.
Google DeepMind가 마우스 커서를 맥락 인식 AI 에이전트로 전환하는 Magic Pointer를 공개했다. 화면 내용을 이해하고 사용자 의도에 맞는 행동을 제안하는 새로운 인터페이스 패러다임이다.