Vision Banana, 이미지 생성기를 범용 시각 모델로 바꾸는 전환점

컴퓨터 비전은 과제마다 다른 전문 모델을 늘려 왔다. 분할엔 분할 모델, 깊이 추정엔 depth 모델, 3D 이해엔 또 다른 모델이 붙었다. Google DeepMind 논문 페이지가 던지는 메시지는 반대다. 이미지 생성기 하나를 충분히 잘 학습시키면, 여러 시각 과제를 같은 생성 인터페이스 위에서 처리할 수 있다는 주장이다.

논문의 중심 모델은 Vision Banana다. Nano Banana Pro를 바탕으로 만들었고, 원래의 이미지 생성 데이터에 소량의 비전 과제 데이터를 더해 instruction tuning했다. 흥미로운 지점은 출력 형식이다. 팀은 분할, 깊이 추정, 기타 시각 과제를 별도 헤드로 나누지 않고 RGB 이미지 생성 문제로 다시 표현했다. 생성 능력을 그대로 활용하겠다는 선택이다.

DeepMind는 이 방식이 여러 2D·3D 이해 과제에서 state-of-the-art 결과를 냈다고 적었다. 특히 segmentation에서는 Segment Anything 계열을, metric depth estimation에서는 Depth Anything 계열을 따라잡거나 앞섰다고 설명한다. 생성 모델이 보기 좋은 그림을 만드는 수준을 넘어, 장면을 구조적으로 읽는 모델로 올라섰다는 선언에 가깝다.

더 눈에 띄는 대목은 비용 구조다. 논문은 Vision Banana가 모델을 처음부터 새로 짜는 방식이 아니라 가벼운 instruction tuning으로 성능을 끌어올렸고, 그 과정에서도 원래의 이미지 생성 능력을 잃지 않았다고 말한다. 이 주장이 맞으면, 같은 기반 모델이 생성, 분할, 깊이 추정 같은 작업을 함께 맡는 그림이 가능해진다.

아직 arXiv 결과이고, 벤치 구성과 일반화 범위를 더 뜯어봐야 한다. 그래도 방향은 선명하다. 업계가 생성 모델을 화려한 부가기능으로 다루던 단계는 끝났고, 시각 이해 전체를 묶는 기반 모델 후보로 보기 시작했다.

AI sources.twitter Mar 26, 2026 2 min read

Google DeepMind, 유해한 AI 조작을 실측하는 real-world toolkit 공개

Google DeepMind는 2026년 3월 26일 대화형 AI가 감정을 악용하거나 사람을 해로운 선택으로 유도할 수 있는지를 다룬 새 연구를 공개했다. 회사는 영국·미국·인도 참가자 1만 명 이상이 참여한 9개 연구를 바탕으로, harmful AI manipulation을 측정하는 첫 empirically validated toolkit을 만들었다고 밝혔다.

#google-deepmind #ai-safety #manipulation

AI sources.twitter Mar 31, 2026 2 min read

Meta, object multiplexing을 적용한 SAM 3.1 공개로 multi-object video tracking 가속

Meta는 2026년 3월 27일 SAM 3.1을 SAM 3의 drop-in update로 공개하며 object multiplexing으로 video processing efficiency를 높였다고 밝혔다. 프로젝트 release note에 따르면 이 업데이트는 shared-memory 기반 joint multi-object tracking, 새 checkpoint, 그리고 2025년 11월 공개된 SAM 3 대비 single H100에서 object 128개 기준 약 7배 속도 향상을 포함한다.

#meta #sam3 #computer-vision

AI sources.twitter Mar 30, 2026 1 min read

Google DeepMind, 1만명 규모 연구 바탕으로 harmful manipulation 평가 툴킷 공개

Google DeepMind가 9건의 연구와 1만명 이상 참가자 데이터를 바탕으로 AI harmful manipulation을 측정하는 평가 툴킷을 공개했다. 금융과 건강처럼 도메인별로 조작 위험이 다르게 나타난다는 점도 함께 제시했다.

#google-deepmind #ai-safety #manipulation

Vision Banana, 이미지 생성기를 범용 시각 모델로 바꾸는 전환점

Related Articles

Google DeepMind, 유해한 AI 조작을 실측하는 real-world toolkit 공개

Meta, object multiplexing을 적용한 SAM 3.1 공개로 multi-object video tracking 가속

Google DeepMind, 1만명 규모 연구 바탕으로 harmful manipulation 평가 툴킷 공개

Comments (0)

Leave a Comment