議論の焦点は「encoder-free」が実際のモデル構造で何を意味するのかに集まった。
議論の焦点は「encoder-free」が実際のモデル構造で何を意味するのかに集まった。
ローカルmultimodal AIの競争が12B級へ入った。Google GemmaはGemma 4 12BをApache 2.0で公開し、画像・音声・テキストを統合的に扱うencoder-free設計を示した。
Google I/O 2026の焦点は、Geminiを単独アプリではなく実行レイヤーとして広げることにある。Gemini 3.5 FlashはAPI、Antigravity、Android Studio、Search、Gemini appへ広がり、Gemini Omni Flashはvideo生成を同じ流れに乗せる。
Google DeepMindはGoogle I/O 2026にて、テキスト・画像・音声・動画などあらゆる入力から動画を生成するGemini Omniを発表した。GeminiのインテリジェンスとGoogleのメディア生成システムを統合し、GeminiアプリやYouTube Shortsで即日利用可能だ。
ByteDance Researchが、画像・動画の生成・編集・理解を単一モデルで処理するLance(3Bパラメータ)をApache 2.0ライセンスで公開した。主要ベンチマークでは7B以上のモデルに匹敵する性能を発揮している。
GoogleがGemini APIのファイル検索ツールをアップデートし、画像・音声・動画を含むマルチモーダルコンテンツ対応のRAGシステム構築が可能になった。
NVIDIAが4月28日に30BパラメータのマルチモーダルオープンモデルNemotron 3 Nano Omniを公開。視覚・音声・言語を単一モデルで処理し、同クラスオープンモデルより9倍高いスループットを実現。
IBM ResearchがタンパクMolecule・遺伝子データを統合するマルチモーダル生物学モデルMAMMALを発表。生物学ベンチマーク11項目中9項目で最高性能を達成し、一部でAlphaFold 3を上回った。
r/singularityコミュニティがClaude Mythosモデルの画像出力機能を発見。Anthropic初の画像生成モデルとして注目を集めている。
LocalLLaMAが強く反応したのは、DeepSeekが点とボックスを推論単位に持ち上げたからだ。直後にリポジトリが非公開になり、注目はさらに膨らんだ。
ここで重要なのは医師の置き換えではなく、補助役としてどこまで信頼できるかだ。Google DeepMindはAI共同臨床医が現実的な一次診療の質問98件のうち97件で重大エラーを出さず、一方でマルチモーダル遠隔診療シミュレーションでは医師が総合では上回ったとしている。
マルチモーダルエージェントは、視覚・音声・テキストを別モデルでつなぐ分だけ遅く高くなりがちだ。NVIDIAはNemotron 3 Nano Omniでその構成を1本化し、30B・256K文脈、同じ応答性条件で動画推論の実効容量最大9.2倍を打ち出した。