Vision Banana、画像生成モデルを汎用ビジョン基盤へ押し上げる

コンピュータビジョンは長く、課題ごとに専門モデルを増やしてきた。セグメンテーションには専用モデル、深度推定には別の専用モデル、3D理解にはさらに別系統という構図である。Google DeepMindの論文ページが示したのは逆方向の発想だ。十分に強い画像生成モデルを作れば、複数の視覚課題を同じ生成インターフェース上で処理できるという主張である。

中心にあるモデルはVision Bananaだ。Nano Banana Proを土台にし、元の画像生成データに少量のビジョンタスク用データを加えてinstruction tuningしたという。面白いのは出力形式で、チームはセグメンテーションや深度推定などを別ヘッドに分けず、RGB画像生成問題として表現し直している。生成能力そのものを視覚理解へ流し込む構成だ。

DeepMindは、この方法が複数の2D・3D理解タスクでstate-of-the-artの結果を出したと書いている。セグメンテーションではSegment Anything系列を、metric depth estimationではDepth Anything系列を上回るか、少なくとも同等の性能を示したという。画像生成モデルが「絵を作る装置」にとどまらず、シーンを構造的に読む基盤へ近づいたという宣言に近い。

もうひとつ重要なのは適応コストだ。論文ページによれば、Vision Bananaの改善はモデル全体を作り直す話ではなく、軽量なinstruction tuningで達成されたうえ、元の画像生成能力も維持した。これが広く再現できるなら、同じベースモデルが生成、分割、深度推定をまとめて引き受ける設計が現実味を帯びる。

まだ結果はarXiv段階で、ベンチマークの構成や一般化の広さは今後の検証が必要だ。それでも方向性ははっきりしている。業界は画像生成を派手な付加機能として扱う段階を抜け、汎用ビジョン基盤を育てる学習ルートとして見始めた。

Vision Banana、画像生成モデルを汎用ビジョン基盤へ押し上げる

Related Articles

Meta、object multiplexingを導入したSAM 3.1を公開、multi-object video trackingを高速化

Meta、SAM 3.1公開　object multiplexingでsingle H100上32 FPSのvideo trackingへ

Google DeepMind、1万人超の参加者を用いた9件の研究から harmful manipulation 評価ツールキットを公開

Comments (0)

Leave a Comment