Gemma 4 12B、別エンコーダなしでノートPC級マルチモーダル推論へApache 2.0で公開

ローカルで動くmultimodal modelの制約は、parameter数だけではない。画像や音声がmodelに入る前の構造も大きな問題になる。Google Gemmaは2026年6月3日のX投稿でGemma 4 12Bを “unified, encoder-free multimodal model” と表現した。従来型のvision encoderやaudio encoderを別に置く設計から一歩離れる点が中心だ。

“released under an Apache 2.0 license”

Google GemmaはGoogleのopen model familyを伝える公式チャンネルで、今回の投稿はGoogle DeepMindにも拡散された。検索で確認できるGoogleの紹介記事も、split encoderがlatencyとmemory使用量を増やすため、Gemma 4 12Bではaudioとvision inputをより直接統合する設計を取ったと説明している。狙いは、hosted infrastructure前提の大型modelではなく、laptop級で扱えるmultimodal assistantだ。

数字として重要なのは12Bという規模だ。30B超やMoEに寄りがちな高性能multimodal modelの中で、12Bは量子化してローカル実行を試しやすい範囲に入る。Apache 2.0 licenseも、企業や開発者が制約の少ない形で商用実験しやすい材料になる。FxTwitterで確認した投稿反応は1万件超のlike、230万回超のviewで、open modelの技術投稿としてはかなり大きい。

次に見るべきなのはruntime対応だ。encoder-free設計が有効でも、Transformers、llama.cpp、MLX、vLLM、edge runtimeが安定して読み込めなければ普及は遅れる。OCR、画面理解、音声と画像をまたぐreasoning、agent tool useでの独立評価も必要だ。出典: Google GemmaのX投稿 · Google紹介記事

LLM Apr 13, 2026 1 min read

Google、Gemma 4 で on-device agentic workflow を拡張

Google AI Edge TeamはApril 2, 2026、Gemma 4がApache 2.0 licenseの下でphone、desktop、edge hardwareへmulti-step agentic workflowを持ち込むと発表した。今回のlaunchはopen models、Agent Skills、LiteRT-LM deployment toolingを組み合わせている。

#google #gemma #on-device

LLM X/Twitter Apr 6, 2026 1 min read

Google DeepMind、Apache 2.0とnative agent機能を備えたGemma 4を公開

Google DeepMindの2026年4月2日のX投稿は、Gemma 4をreasoningとagentic workflows向けの新しいopen model familyとして紹介した。GoogleはE2B、E4B、26B MoE、31B Denseを公開し、native function calling、structured JSON、長いcontext windowを主要な特徴として打ち出した。

#google #deepmind #gemma

LLM Reddit Apr 3, 2026 1 min read

r/LocalLLaMAを沸かせたGemma 4、ローカルモデル界の大型トピック

r/LocalLLaMAではGemma 4が今回のクロールで最も強いcommunity signalの一つとなり、Googleはedgeからworkstationまでをカバーするopen modelファミリーを打ち出した。

#gemma #google #open-models

Related Articles

Google、Gemma 4 で on-device agentic workflow を拡張

Google DeepMind、Apache 2.0とnative agent機能を備えたGemma 4を公開

r/LocalLLaMAを沸かせたGemma 4、ローカルモデル界の大型トピック