Gemma 4 QAT、エッジ向けモデルのメモリを1GB目標まで圧縮
Original: Gemma 4 QAT Cuts Edge Model Memory Down to 1GB Target View original →
Gemma 4を端末側で動かすための圧縮
Gemma 4は、クラウド前提の大きなモデルから、端末側で扱いやすいモデルへ一歩寄った。Google for DevelopersはXで、量子化を学習中に織り込むQAT版チェックポイントを公開し、エッジ端末や消費者向けGPUでのローカル推論を狙うと示した。
"Gemma 4 quantization-aware training (QAT) models are now available"
この投稿は2026年6月5日16:13 UTCに公開され、FxTwitter確認時点で7万4,000回超の表示と1,100件超のいいねを集めていた。Google for Developersは、開発者向けツール、API、モデル、プラットフォーム更新を扱う公式アカウントで、同じスレッド内でHugging Faceの重みとGoogleブログへのリンクも示している。
Googleブログによると、今回のリリースはGemma 4公開から2か月後の効率化アップデートだ。QATは学習後に単純に圧縮するPTQとは異なり、学習中に量子化を想定することで品質低下を抑える。今回のチェックポイントにはQ4_0形式とモバイル特化形式が含まれ、Googleはこのモバイル形式でGemma 4 E2Bのメモリフットプリントを1GBまで下げたとしている。
モバイル向けの工夫は複数ある。静的アクティベーションで実行時のスケーリング計算を減らし、チャネル単位量子化でモバイルアクセラレータに合わせる。さらに、トークン生成に関わる部分へ重点的に2-bit量子化を使い、埋め込みとKVキャッシュも圧縮する。音声や画像エンコーダが不要な用途では、必要なモダリティだけに絞ることでメモリをさらに下げられる。
配布経路も開発者には重要だ。重みはHugging Faceで入手でき、GGUFはllama.cpp向け、圧縮テンソルはvLLM向けに用意される。Ollama、LM Studio、LiteRT-LM、Transformers.js、MLX、SGLang、Unslothとの利用経路も示された。
次に見るべきは実機での速度と品質である。1GBという数字は導入の壁を下げるが、トークン生成速度、発熱、バッテリー消費、長い文脈でのKVキャッシュ負荷は別に検証する必要がある。
Related Articles
ローカルmultimodal AIの競争が12B級へ入った。Google GemmaはGemma 4 12BをApache 2.0で公開し、画像・音声・テキストを統合的に扱うencoder-free設計を示した。
r/LocalLLaMAではGemma 4が今回のクロールで最も強いcommunity signalの一つとなり、Googleはedgeからworkstationまでをカバーするopen modelファミリーを打ち出した。
Googleは2026年4月2日、Gemma 4を自社で最も強力なopen model familyだと発表し、Gemini 3と同じ技術基盤から構築されたと説明した。GoogleはE2B、E4B、26B MoE、31B Denseを用意し、function-calling、structured JSON output、最大256K context、Apache 2.0 licenseを提供するとしている。