GoogleはMarch 3, 2026、Gemini 3.1 Flash-LiteをGemini 3系で最速かつ最もコスト効率の高いモデルとして発表した。previewはGoogle AI StudioとVertex AIで始まり、価格は$0.25/1M input tokens、$1.50/1M output tokensだ。
#multimodal
AzureはPhi-4-Reasoning-Vision-15BがMicrosoft Foundryで利用可能になったと発表した。Microsoftはこの15B modelを、document解析、chart理解、GUI-grounded agent workflow向けにreasoningを切り替えられるcompactなmultimodal systemとして位置付けている。
GoogleがNotebookLMのCinematic Video OverviewsをGoogle AI Ultraユーザー向けに英語で展開開始した。公式ブログによると、Gemini 3、Nano Banana Pro、Veo 3を組み合わせ、従来の narrated slides より没入感の高い動画を生成する。
MistralがApache 2.0ベースのマルチモーダル公開モデル群Mistral 3を発表した。14B, 8B, 3Bのdense modelに加え、41B active, 675B totalのMistral Large 3も提示している。
Google AIはGemini 3.1 Flash-Liteの実運用例として、大量画像の仕分けや業務自動化シナリオを紹介した。Gemini API、Google AI Studio、Vertex AIのpreview導線も同時に示された。
GoogleはXでNano Banana 2を発表し、同社で最高水準の画像生成・編集モデルだと説明した。投稿では、Gemini App、Search、開発者向けおよびクリエイティブツール全体への当日展開が示されている。
2026年3月4日、LocalLLaMAの高スコア投稿でMicrosoftのopen-weight multimodalモデルPhi-4-Reasoning-Vision-15Bが共有され、実運用観点の議論が広がった。
Googleが新しいAI画像生成モデル「Nano Banana 2」を公開した。高度な世界知識、被写体の一貫性、プロダクション対応スペックをFlashスピードで提供するこのモデルは、企業向けAI画像生成の新たな基準を示す。
Googleが新しいAI画像生成モデル「Nano Banana 2」を公開した。高度な世界知識、被写体の一貫性、プロダクション対応スペックをFlashスピードで提供するこのモデルは、企業向けAI画像生成の新たな基準を示す。
Google DeepMindは2026年2月26日(UTC)のX投稿で、Nano Banana 2が指示文からデータ量の多いインフォグラフィックや教育図を生成できると説明した。Geminiの知識とWeb検索情報の活用も示した。
r/singularityで拡散したGoogleのNano Banana 2は、Gemini 3.1 Flash Imageとして高速生成と高機能編集を両立し、製品群とAPIへ広く展開される。
r/MachineLearningに投稿された記事が大きな共感を呼んでいます。限られた計算リソースでmultimodal learningの改善手法を研究した独立研究者が、大規模モデルとの比較実験が不足しているという理由でCVPRに却下されたという内容です。