Gemma 4 12B、encoder-free multimodal設計でローカルAI議論の中心へ
Original: Gemma 4 12B: A unified, encoder-free multimodal model View original →
GoogleのGemma 4 12Bは、ノートPC級の環境でも試せるopen-weightsのmultimodalモデルとして公開された。ただしコミュニティの関心は、単なる新モデル追加よりも「専用encoderなしで画像・音声入力をLLM backboneへ流す」という設計説明に向かった。
この表現は細かく読まれている。Googleはvision encoderを、単一の行列積、positional embedding、normalizationから成る軽量embedding moduleに置き換えたと説明している。つまり入力表現を作る処理が消えたわけではなく、SigLIPのような独立したvision modelを接続する従来型とは違う構成だという理解に近い。
12Bというサイズも重要だ。巨大なMoEモデルを待つ声はあるが、日常的にローカルで動かしやすいのはこの規模である。256K context window、多言語対応、pre-trained版とinstruction-tuned版のopen weightsという組み合わせは、文書処理、画像QA、小規模agent workflowの実験に向いている。
HNのコメントでは、軽量moduleのrobustness、OllamaやMLXでの実行環境、12B級multimodalモデルの実用例が論点になった。Gemma 4 12Bの初期評価は、benchmarkだけではなく、Googleがopen model戦略で「実際に手元で使えるmultimodal」をどこまで押し出すのかを測る材料になっている。
Related Articles
大きな反応を集めた理由は古いCPUの意外性だけでなく、LLM inferenceの現実的なボトルネックが見えたことにある。
ローカルmultimodal AIの競争が12B級へ入った。Google GemmaはGemma 4 12BをApache 2.0で公開し、画像・音声・テキストを統合的に扱うencoder-free設計を示した。
Google I/O 2026の焦点は、Geminiを単独アプリではなく実行レイヤーとして広げることにある。Gemini 3.5 FlashはAPI、Antigravity、Android Studio、Search、Gemini appへ広がり、Gemini Omni Flashはvideo生成を同じ流れに乗せる。