#gemma

LLM Hacker News Jul 16, 2026 1 min read

13年前のXeonでGemma 4 26B、GPUなし5 tok/s

HNでの論点は「古い機械でも動いた」だけではなかった。ik_llama.cppへの修正により、dual Ivy Bridge Xeon上でGemma 4 26B-A4BをCPU-only実行し、local inferenceのコストと制御権が議論された。

#gemma #cpu-inference #llama-cpp

LLM Hacker News Jun 16, 2026 1 min read

ローカルモデル、趣味の実行環境からcoding workflowへ

HNの論点は、local LLMがfrontier modelを完全に置き換えるかではなかった。Gemma、Qwen、agentic coding、メモリ制約、コスト、privacyをどう組み合わせるかに議論が集まった。

#local-llm #agentic-coding #gemma

AI Jun 16, 2026 1 min read

軌道上VLMが初の対象探索、衛星データの詰まりを宇宙で減らす道

衛星画像は地上に下ろしてから分析する、という前提が揺らぎ始めた。YAM-9上でGemma 3ベースのVLMが自然言語クエリに応じて関心領域を探した初報告事例だ。

#space-ai #vlm #gemma

LLM X/Twitter Jun 16, 2026 1 min read

OpenRouter、gpt-oss-20bとGemma 4 26Bの無料capacityを追加

OpenRouterはDarkbloom経由でgpt-oss-20bとGemma 4 26Bの無料capacityを追加した。21B open-weight modelと256K context対応Gemmaを、低コストで試せる経路が広がる。

#openrouter #gpt-oss #gemma

LLM Jun 12, 2026 1 min read

DiffusionGemma、26B open modelでtoken生成の待ち時間を圧縮

Google DeepMindが26B MoE open modelのDiffusionGemmaを公開した。256-tokenブロックを並列に生成・修正するtext diffusion方式で、専用GPUでは最大4x高速な生成を狙う。

#google #deepmind #gemma

LLM X/Twitter Jun 7, 2026 1 min read

Gemma 4 QAT、エッジ向けモデルのメモリを1GB目標まで圧縮

GoogleはGemma 4 QATチェックポイントを公開し、エッジ端末と消費者向けGPUでのローカル推論を狙う。モバイル形式ではGemma 4 E2Bのメモリが1GBまで下がる。

#google #gemma #qat

LLM Hacker News Jun 4, 2026 1 min read

Gemma 4 12B、encoder-free multimodal設計でローカルAI議論の中心へ

議論の焦点は「encoder-free」が実際のモデル構造で何を意味するのかに集まった。

#gemma #multimodal #open-weights

LLM X/Twitter Jun 4, 2026 1 min read

Gemma 4 12B、別エンコーダなしでノートPC級マルチモーダル推論へApache 2.0で公開

ローカルmultimodal AIの競争が12B級へ入った。Google GemmaはGemma 4 12BをApache 2.0で公開し、画像・音声・テキストを統合的に扱うencoder-free設計を示した。

#gemma #google #open-models

LLM Hacker News Jun 2, 2026 1 min read

10年前のXeonでGemma 4、焦点はGPUなしよりmemory bandwidth

大きな反応を集めた理由は古いCPUの意外性だけでなく、LLM inferenceの現実的なボトルネックが見えたことにある。

#local-ai #gemma #cpu-inference

LLM Reddit May 6, 2026 1 min read

GoogleがGemma 4向けMulti-Token Predictionドラフターを公開、推論速度最大3倍

GoogleがGemma 4モデルファミリー向けのMTPドラフターを公開。投機的デコーディングアーキテクチャにより、出力品質を損なわず推論速度を最大3倍向上させる。

#gemma #google #mtp

LLM Reddit May 1, 2026 1 min read

Qwen 3.6 vs Gemma 4、Pac-Man一発勝負で見えたlocal LLMの評価軸

LocalLLaMAでは速度比較というより、長くて厳しい生成タスクを最後まで壊さず仕上げられるかが論点になった。同じMacBook Pro M5 Max上で、Qwen 3.6 27Bは速く長く書き、Gemma 4 31Bは少ないトークンでゲームロジックをまとめきった。

#qwen #gemma #local-llm

AI X/Twitter Apr 25, 2026 1 min read

DeepMind、4地域で12B訓練　同期型より20倍速い分散学習へ

Google DeepMindの新しい学習方式が重要なのは、データセンター境界そのものが最前線の制約になっているからだ。Decoupled DiLoCoは2-5Gbpsの広域回線上で米国4地域にまたがる12B Gemmaを学習し、従来の同期方式より20倍超高速で、平均精度64.1%と基準線64.4%にほぼ並んだ。

#google-deepmind #gemma #distributed-training