Vision Banana、画像生成モデルを汎用ビジョン基盤へ押し上げる
Original: Image Generators are Generalist Vision Learners View original →
コンピュータビジョンは長く、課題ごとに専門モデルを増やしてきた。セグメンテーションには専用モデル、深度推定には別の専用モデル、3D理解にはさらに別系統という構図である。Google DeepMindの論文ページが示したのは逆方向の発想だ。十分に強い画像生成モデルを作れば、複数の視覚課題を同じ生成インターフェース上で処理できるという主張である。
中心にあるモデルはVision Bananaだ。Nano Banana Proを土台にし、元の画像生成データに少量のビジョンタスク用データを加えてinstruction tuningしたという。面白いのは出力形式で、チームはセグメンテーションや深度推定などを別ヘッドに分けず、RGB画像生成問題として表現し直している。生成能力そのものを視覚理解へ流し込む構成だ。
DeepMindは、この方法が複数の2D・3D理解タスクでstate-of-the-artの結果を出したと書いている。セグメンテーションではSegment Anything系列を、metric depth estimationではDepth Anything系列を上回るか、少なくとも同等の性能を示したという。画像生成モデルが「絵を作る装置」にとどまらず、シーンを構造的に読む基盤へ近づいたという宣言に近い。
もうひとつ重要なのは適応コストだ。論文ページによれば、Vision Bananaの改善はモデル全体を作り直す話ではなく、軽量なinstruction tuningで達成されたうえ、元の画像生成能力も維持した。これが広く再現できるなら、同じベースモデルが生成、分割、深度推定をまとめて引き受ける設計が現実味を帯びる。
まだ結果はarXiv段階で、ベンチマークの構成や一般化の広さは今後の検証が必要だ。それでも方向性ははっきりしている。業界は画像生成を派手な付加機能として扱う段階を抜け、汎用ビジョン基盤を育てる学習ルートとして見始めた。
Related Articles
Metaは2026年3月27日、SAM 3.1をSAM 3のdrop-in updateとして公開し、object multiplexingでvideo processing efficiencyを高めたと発表した。projectのrelease noteによれば、この更新はshared-memoryベースのjoint multi-object tracking、新checkpoint、そして2025年11月版SAM 3と比べてsingle H100で128 object時に約7倍の高速化を含む。
MetaはMarch 27, 2026にSAM 3.1を公開し、object multiplexingによってsingle H100上でmedium-object-count videoのthroughputを16 FPSから32 FPSへ引き上げたと説明した。MetaはこれをSAM 3のdrop-in replacementとして提供する。
Google DeepMindが、1万人超の参加者を対象にした9件の研究をもとに AI の harmful manipulation を測る評価ツールキットを公開した。金融と健康ではリスクの出方が異なり、評価は domain-specific に設計すべきだと示している。
Comments (0)
No comments yet. Be the first to comment!