Gemma 4 12B、別エンコーダなしでノートPC級マルチモーダル推論へApache 2.0で公開
Original: Gemma 4 12B drops separate encoders for local multimodal inference View original →
ローカルで動くmultimodal modelの制約は、parameter数だけではない。画像や音声がmodelに入る前の構造も大きな問題になる。Google Gemmaは2026年6月3日のX投稿でGemma 4 12Bを “unified, encoder-free multimodal model” と表現した。従来型のvision encoderやaudio encoderを別に置く設計から一歩離れる点が中心だ。
“released under an Apache 2.0 license”
Google GemmaはGoogleのopen model familyを伝える公式チャンネルで、今回の投稿はGoogle DeepMindにも拡散された。検索で確認できるGoogleの紹介記事も、split encoderがlatencyとmemory使用量を増やすため、Gemma 4 12Bではaudioとvision inputをより直接統合する設計を取ったと説明している。狙いは、hosted infrastructure前提の大型modelではなく、laptop級で扱えるmultimodal assistantだ。
数字として重要なのは12Bという規模だ。30B超やMoEに寄りがちな高性能multimodal modelの中で、12Bは量子化してローカル実行を試しやすい範囲に入る。Apache 2.0 licenseも、企業や開発者が制約の少ない形で商用実験しやすい材料になる。FxTwitterで確認した投稿反応は1万件超のlike、230万回超のviewで、open modelの技術投稿としてはかなり大きい。
次に見るべきなのはruntime対応だ。encoder-free設計が有効でも、Transformers、llama.cpp、MLX、vLLM、edge runtimeが安定して読み込めなければ普及は遅れる。OCR、画面理解、音声と画像をまたぐreasoning、agent tool useでの独立評価も必要だ。出典: Google GemmaのX投稿 · Google紹介記事
Related Articles
Google I/O 2026の焦点は、Geminiを単独アプリではなく実行レイヤーとして広げることにある。Gemini 3.5 FlashはAPI、Antigravity、Android Studio、Search、Gemini appへ広がり、Gemini Omni Flashはvideo生成を同じ流れに乗せる。
Google AI Edge TeamはApril 2, 2026、Gemma 4がApache 2.0 licenseの下でphone、desktop、edge hardwareへmulti-step agentic workflowを持ち込むと発表した。今回のlaunchはopen models、Agent Skills、LiteRT-LM deployment toolingを組み合わせている。
Google DeepMindの2026年4月2日のX投稿は、Gemma 4をreasoningとagentic workflows向けの新しいopen model familyとして紹介した。GoogleはE2B、E4B、26B MoE、31B Denseを公開し、native function calling、structured JSON、長いcontext windowを主要な特徴として打ち出した。