Gemma 4 12B、encoder-free multimodal設計でローカルAI議論の中心へ

GoogleのGemma 4 12Bは、ノートPC級の環境でも試せるopen-weightsのmultimodalモデルとして公開された。ただしコミュニティの関心は、単なる新モデル追加よりも「専用encoderなしで画像・音声入力をLLM backboneへ流す」という設計説明に向かった。

この表現は細かく読まれている。Googleはvision encoderを、単一の行列積、positional embedding、normalizationから成る軽量embedding moduleに置き換えたと説明している。つまり入力表現を作る処理が消えたわけではなく、SigLIPのような独立したvision modelを接続する従来型とは違う構成だという理解に近い。

12Bというサイズも重要だ。巨大なMoEモデルを待つ声はあるが、日常的にローカルで動かしやすいのはこの規模である。256K context window、多言語対応、pre-trained版とinstruction-tuned版のopen weightsという組み合わせは、文書処理、画像QA、小規模agent workflowの実験に向いている。

HNのコメントでは、軽量moduleのrobustness、OllamaやMLXでの実行環境、12B級multimodalモデルの実用例が論点になった。Gemma 4 12Bの初期評価は、benchmarkだけではなく、Googleがopen model戦略で「実際に手元で使えるmultimodal」をどこまで押し出すのかを測る材料になっている。