GoogleはGemma 4 QATチェックポイントを公開し、エッジ端末と消費者向けGPUでのローカル推論を狙う。モバイル形式ではGemma 4 E2Bのメモリが1GBまで下がる。
GoogleはGemma 4 QATチェックポイントを公開し、エッジ端末と消費者向けGPUでのローカル推論を狙う。モバイル形式ではGemma 4 E2Bのメモリが1GBまで下がる。
議論の焦点は「encoder-free」が実際のモデル構造で何を意味するのかに集まった。
ローカルmultimodal AIの競争が12B級へ入った。Google GemmaはGemma 4 12BをApache 2.0で公開し、画像・音声・テキストを統合的に扱うencoder-free設計を示した。
大きな反応を集めた理由は古いCPUの意外性だけでなく、LLM inferenceの現実的なボトルネックが見えたことにある。
GoogleがGemma 4モデルファミリー向けのMTPドラフターを公開。投機的デコーディングアーキテクチャにより、出力品質を損なわず推論速度を最大3倍向上させる。
LocalLLaMAでは速度比較というより、長くて厳しい生成タスクを最後まで壊さず仕上げられるかが論点になった。同じMacBook Pro M5 Max上で、Qwen 3.6 27Bは速く長く書き、Gemma 4 31Bは少ないトークンでゲームロジックをまとめきった。
Google DeepMindの新しい学習方式が重要なのは、データセンター境界そのものが最前線の制約になっているからだ。Decoupled DiLoCoは2-5Gbpsの広域回線上で米国4地域にまたがる12B Gemmaを学習し、従来の同期方式より20倍超高速で、平均精度64.1%と基準線64.4%にほぼ並んだ。
LocalLLaMAが反応したのは単なる数値比較ではなかった。多くのローカル推論ユーザーが事実上の常識として使っていたルールを崩し、とくにGemma系でモデル差が大きいことを示したからだ。2026年4月25日時点でスレッドは324ポイント、58コメントだった。
r/LocalLLaMAの投稿は正式なbenchmarkではないが、hosted modelがupdateやfilterで揺れる中、local modelのcontrolが価値になるというcommunity moodをよく表している。
Redditが沸いたのは、また一台ハイエンドGPU機が出てきたからではなく、スマホをGemma 4サーバーに変えてしまったからだ。盛り上がりの中心はpeak benchmarkではなく、身近なhardwareでもlocal inferenceを回せるという手触りにあった。
Google AI Edge TeamはApril 2, 2026、Gemma 4がApache 2.0 licenseの下でphone、desktop、edge hardwareへmulti-step agentic workflowを持ち込むと発表した。今回のlaunchはopen models、Agent Skills、LiteRT-LM deployment toolingを組み合わせている。
Google DeepMindは2026年4月9日にXで、Gemma 4が初週で10M downloadsを超え、Gemma family全体では500M downloadsを突破したと発表した。GoogleはGemma 4をreasoning、agentic workflows、ローカルhardware deployment向けのopen model familyとして位置づけている。