Vision Banana, 이미지 생성기를 범용 시각 모델로 바꾸는 전환점

컴퓨터 비전은 과제마다 다른 전문 모델을 늘려 왔다. 분할엔 분할 모델, 깊이 추정엔 depth 모델, 3D 이해엔 또 다른 모델이 붙었다. Google DeepMind 논문 페이지가 던지는 메시지는 반대다. 이미지 생성기 하나를 충분히 잘 학습시키면, 여러 시각 과제를 같은 생성 인터페이스 위에서 처리할 수 있다는 주장이다.

논문의 중심 모델은 Vision Banana다. Nano Banana Pro를 바탕으로 만들었고, 원래의 이미지 생성 데이터에 소량의 비전 과제 데이터를 더해 instruction tuning했다. 흥미로운 지점은 출력 형식이다. 팀은 분할, 깊이 추정, 기타 시각 과제를 별도 헤드로 나누지 않고 RGB 이미지 생성 문제로 다시 표현했다. 생성 능력을 그대로 활용하겠다는 선택이다.

DeepMind는 이 방식이 여러 2D·3D 이해 과제에서 state-of-the-art 결과를 냈다고 적었다. 특히 segmentation에서는 Segment Anything 계열을, metric depth estimation에서는 Depth Anything 계열을 따라잡거나 앞섰다고 설명한다. 생성 모델이 보기 좋은 그림을 만드는 수준을 넘어, 장면을 구조적으로 읽는 모델로 올라섰다는 선언에 가깝다.

더 눈에 띄는 대목은 비용 구조다. 논문은 Vision Banana가 모델을 처음부터 새로 짜는 방식이 아니라 가벼운 instruction tuning으로 성능을 끌어올렸고, 그 과정에서도 원래의 이미지 생성 능력을 잃지 않았다고 말한다. 이 주장이 맞으면, 같은 기반 모델이 생성, 분할, 깊이 추정 같은 작업을 함께 맡는 그림이 가능해진다.

아직 arXiv 결과이고, 벤치 구성과 일반화 범위를 더 뜯어봐야 한다. 그래도 방향은 선명하다. 업계가 생성 모델을 화려한 부가기능으로 다루던 단계는 끝났고, 시각 이해 전체를 묶는 기반 모델 후보로 보기 시작했다.

Vision Banana, 이미지 생성기를 범용 시각 모델로 바꾸는 전환점

Related Articles

Gemini 교실 실험, 문제풀이 접근 질문 비중을 68%에서 90%로 끌어올린 결과

Gemini 3.5 Live Translate, 70개 이상 언어 실시간 음성 번역으로 확대

50년 된 마우스 포인터, AI로 재발명 — Google DeepMind의 Magic Pointer