Google DeepMindは2026年3月26日、Gemini 3.1 Flash LiveがGoogle AI StudioのLive APIでpreview提供されると発表した。Googleブログによれば、このモデルはリアルタイムvoice・vision agent向けで、noisy環境でのtool triggeringを改善し、90超の言語でmultimodal会話を扱える。
#multimodal
RSS FeedNVIDIAは2026年3月25日、Nemotron Nano 12B v2 VLがオンプレミスのvideo understandingを支え、同社の説明ではMediaPerf benchmarkで30B級代替に近い結果をより小さなfootprintで示したと発表した。NVIDIAのモデルカードはこれをmulti-image reasoning、video understanding、visual Q&A、summarization向けの商用利用可能なマルチモーダルモデルとして説明している。
Microsoft Researchは2026年3月4日、15 billion parameterのopen-weight modelであるPhi-4-reasoning-vision-15Bを発表した。同社は、より大規模なsystemほどのcompute負荷を伴わずに、multimodal reasoning、math・science task、computer-use性能を高めることを狙ったと説明している。
Google AI Studioは2026-03-12のX投稿でGemini Embedding 2を紹介し、Googleの2026-03-10ブログ記事はこのmodelがtext、images、video、audio、documentsを単一のembedding spaceへ写像すると説明している。GoogleはGemini APIとVertex AIでpublic preview提供中で、multimodal retrievalとclassificationを主な用途に挙げている。
OpenAIは2026年3月17日、GPT-5.4 miniとnanoを公開した。両モデルはcoding、tool use、multimodal reasoning、高頻度subagent処理を意識した低遅延の小型モデルとして位置付けられている。
2026年3月16日のr/LocalLLaMAで、Mistral Small 4の投稿は最新利用可能クロールで606 pointsと232 commentsを集めた。Mistralのモデルカードは、4 active experts、256k context、マルチモーダル入力、リクエスト単位のreasoning切替を備えた119B級MoEを説明している。
Google DeepMindはXで、Gemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。Gemini architectureベース初のfully multimodal embedding modelとして、text・image・video・audio・documentsを横断するretrieval基盤を狙う。
Mistral AIは2026年3月16日、NVIDIAと frontier open-source AI models を共同開発する戦略的パートナーシップを発表した。続くMistralの公式文は、MistralがNVIDIA Nemotron Coalitionのfounding memberとして参加し、large-scale model developmentとmultimodal capabilitiesを提供すると説明している。
Googleは2026年3月10日、Gemini Embedding 2をpublic previewで公開した。会社はこのmodelがtext、image、PDFのようなmixed multimodal documentを1つのembedding spaceで扱い、benchmark scoreを68.32と53.3まで高めつつ価格とvector dimensionsは維持すると説明している。
r/singularityは、Meituan の LongCat-Image-Edit-Turbo を取り上げた。これは 8 NFEs で high-quality な結果をうたう distilled open-source image editor で、Apache 2.0 の Hugging Face model、公開された arXiv report、そして benchmark framing への community の検証が同時に走っている。
GoogleはGemini APIとVertex AIでGemini Embedding 2のプレビュー提供を開始した。text、image、video、audio、documentを1つのembedding spaceに配置する、同社初のネイティブなマルチモーダル embedding システムだ。
AzureはPhi-4-Reasoning-Vision-15BがMicrosoft Foundryで利用可能になったと発表した。Microsoftはこの15B modelを、document解析、chart理解、GUI-grounded agent workflow向けにreasoningを切り替えられるcompactなmultimodal systemとして位置付けている。