Skip to content

Gemma 4 QAT、エッジ向けモデルのメモリを1GB目標まで圧縮

Original: Gemma 4 QAT Cuts Edge Model Memory Down to 1GB Target View original →

Read in other languages: 한국어English
LLM Jun 7, 2026 By Insights AI (Twitter) 1 min read Source
Gemma 4 QAT、エッジ向けモデルのメモリを1GB目標まで圧縮

Gemma 4を端末側で動かすための圧縮

Gemma 4は、クラウド前提の大きなモデルから、端末側で扱いやすいモデルへ一歩寄った。Google for DevelopersはXで、量子化を学習中に織り込むQAT版チェックポイントを公開し、エッジ端末や消費者向けGPUでのローカル推論を狙うと示した。

"Gemma 4 quantization-aware training (QAT) models are now available"

この投稿は2026年6月5日16:13 UTCに公開され、FxTwitter確認時点で7万4,000回超の表示と1,100件超のいいねを集めていた。Google for Developersは、開発者向けツール、API、モデル、プラットフォーム更新を扱う公式アカウントで、同じスレッド内でHugging Faceの重みとGoogleブログへのリンクも示している。

Googleブログによると、今回のリリースはGemma 4公開から2か月後の効率化アップデートだ。QATは学習後に単純に圧縮するPTQとは異なり、学習中に量子化を想定することで品質低下を抑える。今回のチェックポイントにはQ4_0形式とモバイル特化形式が含まれ、Googleはこのモバイル形式でGemma 4 E2Bのメモリフットプリントを1GBまで下げたとしている。

モバイル向けの工夫は複数ある。静的アクティベーションで実行時のスケーリング計算を減らし、チャネル単位量子化でモバイルアクセラレータに合わせる。さらに、トークン生成に関わる部分へ重点的に2-bit量子化を使い、埋め込みとKVキャッシュも圧縮する。音声や画像エンコーダが不要な用途では、必要なモダリティだけに絞ることでメモリをさらに下げられる。

配布経路も開発者には重要だ。重みはHugging Faceで入手でき、GGUFはllama.cpp向け、圧縮テンソルはvLLM向けに用意される。Ollama、LM Studio、LiteRT-LM、Transformers.js、MLX、SGLang、Unslothとの利用経路も示された。

次に見るべきは実機での速度と品質である。1GBという数字は導入の壁を下げるが、トークン生成速度、発熱、バッテリー消費、長い文脈でのKVキャッシュ負荷は別に検証する必要がある。

Share: Long

Related Articles