Gemma 4 QAT、エッジ向けモデルのメモリを1GB目標まで圧縮

Gemma 4を端末側で動かすための圧縮

Gemma 4は、クラウド前提の大きなモデルから、端末側で扱いやすいモデルへ一歩寄った。Google for DevelopersはXで、量子化を学習中に織り込むQAT版チェックポイントを公開し、エッジ端末や消費者向けGPUでのローカル推論を狙うと示した。

"Gemma 4 quantization-aware training (QAT) models are now available"

この投稿は2026年6月5日16:13 UTCに公開され、FxTwitter確認時点で7万4,000回超の表示と1,100件超のいいねを集めていた。Google for Developersは、開発者向けツール、API、モデル、プラットフォーム更新を扱う公式アカウントで、同じスレッド内でHugging Faceの重みとGoogleブログへのリンクも示している。

Googleブログによると、今回のリリースはGemma 4公開から2か月後の効率化アップデートだ。QATは学習後に単純に圧縮するPTQとは異なり、学習中に量子化を想定することで品質低下を抑える。今回のチェックポイントにはQ4_0形式とモバイル特化形式が含まれ、Googleはこのモバイル形式でGemma 4 E2Bのメモリフットプリントを1GBまで下げたとしている。

モバイル向けの工夫は複数ある。静的アクティベーションで実行時のスケーリング計算を減らし、チャネル単位量子化でモバイルアクセラレータに合わせる。さらに、トークン生成に関わる部分へ重点的に2-bit量子化を使い、埋め込みとKVキャッシュも圧縮する。音声や画像エンコーダが不要な用途では、必要なモダリティだけに絞ることでメモリをさらに下げられる。

配布経路も開発者には重要だ。重みはHugging Faceで入手でき、GGUFはllama.cpp向け、圧縮テンソルはvLLM向けに用意される。Ollama、LM Studio、LiteRT-LM、Transformers.js、MLX、SGLang、Unslothとの利用経路も示された。

次に見るべきは実機での速度と品質である。1GBという数字は導入の壁を下げるが、トークン生成速度、発熱、バッテリー消費、長い文脈でのKVキャッシュ負荷は別に検証する必要がある。

Gemma 4 QAT、エッジ向けモデルのメモリを1GB目標まで圧縮

Gemma 4を端末側で動かすための圧縮

Related Articles

r/LocalLLaMAを沸かせたGemma 4、ローカルモデル界の大型トピック

Google、Gemma 4 を公開… Apache 2.0 license と最大 256K context を提供

13年前のXeonでGemma 4 26B、GPUなし5 tok/s

Related Articles

r/LocalLLaMAを沸かせたGemma 4、ローカルモデル界の大型トピック
LLM Reddit Apr 3, 2026 1 min read

Google、Gemma 4 を公開… Apache 2.0 license と最大 256K context を提供
LLM X/Twitter Apr 2, 2026 1 min read

13年前のXeonでGemma 4 26B、GPUなし5 tok/s
HNでの論点は「古い機械でも動いた」だけではなかった。ik_llama.cppへの修正により、dual Ivy Bridge Xeon上でGemma 4 26B-A4BをCPU-only実行し、local inferenceのコストと制御権が議論された。