GoogleがNotebookLMのCinematic Video OverviewsをGoogle AI Ultraユーザー向けに英語で展開開始した。公式ブログによると、Gemini 3、Nano Banana Pro、Veo 3を組み合わせ、従来の narrated slides より没入感の高い動画を生成する。
#multimodal
RSS FeedMistralがApache 2.0ベースのマルチモーダル公開モデル群Mistral 3を発表した。14B, 8B, 3Bのdense modelに加え、41B active, 675B totalのMistral Large 3も提示している。
Google AIはGemini 3.1 Flash-Liteの実運用例として、大量画像の仕分けや業務自動化シナリオを紹介した。Gemini API、Google AI Studio、Vertex AIのpreview導線も同時に示された。
GoogleはXでNano Banana 2を発表し、同社で最高水準の画像生成・編集モデルだと説明した。投稿では、Gemini App、Search、開発者向けおよびクリエイティブツール全体への当日展開が示されている。
2026年3月4日、LocalLLaMAの高スコア投稿でMicrosoftのopen-weight multimodalモデルPhi-4-Reasoning-Vision-15Bが共有され、実運用観点の議論が広がった。
Google DeepMindは2026年2月26日(UTC)のX投稿で、Nano Banana 2が指示文からデータ量の多いインフォグラフィックや教育図を生成できると説明した。Geminiの知識とWeb検索情報の活用も示した。
r/MachineLearningに投稿された記事が大きな共感を呼んでいます。限られた計算リソースでmultimodal learningの改善手法を研究した独立研究者が、大規模モデルとの比較実験が不足しているという理由でCVPRに却下されたという内容です。
r/LocalLLaMAの高スコア投稿を通じて、Hugging Face公開のQwen3.5-397B-A17Bが急速に共有された。モデルカードの397B/17B構成と約1Mトークン拡張コンテキストが主要論点になっている。
r/LocalLLaMAのQwen3.5投稿は123ポイント・13コメントで拡散し、公開ウェイトの即時検証ニーズを再確認させました。リンク先モデルカードでは397B total、17B activated、262,144 native contextなどの主要仕様が明示されています。
Metaが初のオープンウェイト・ネイティブマルチモーダルモデルLlama 4 ScoutとMaverickを公開。業界最長1000万トークンコンテキストとMoEアーキテクチャでGPT-4o、Gemini 2.0 Flashを凌駕。