10年前のXeonでGemma 4、焦点はGPUなしよりmemory bandwidth

2016年のIntel Xeon E5-2620 v4、128GB DDR3、GPUなし。この構成でGemma 4の26B級モデルを実用に近い速度で動かしたというブログ記事がHacker Newsで注目を集めた。筆者はOllamaの標準経路ではなくik_llama.cppを使い、MTP drafter、speculative decoding、CPU MoE関連オプション、flash attention、runtime repackなど複数の低レベル設定を組み合わせている。

重要なのは、古いサーバーが万能になったという話ではない。LLMのdecodingでは、次のtokenを生成するたびに大量のweightsをメモリから読み出す。CPUの演算性能だけでなく、memory bandwidthが強い制約になる。DDR3環境ではその制約がはっきり見えるため、runtimeの細かなレバーを理解しないと速度は出ない。

コメント欄では、驚きだけでなく現実的な費用も議論された。古いXeonサーバーは入手しやすくても、電力、騒音、熱のコストがある。クラウドAPIの価格と比較すべきだという指摘も出た。一方で、2012年世代のXeonと少ないRAMでGemma 26B-A4B Q4を8〜12 tokens/s程度で動かしたという体験談もあり、低負荷の自動化やオフライン実験には意味があるという見方もあった。

この事例は、local inferenceの入口を少し下げる。最新GPUを置き換えるものではないが、model format、quantization、drafter、runtime設定を理解すれば、古い機材も実験環境になる。大きなcontextや高いthroughputが必要なら現代的なGPUは依然として有利だが、個人の検証やプライベートな軽作業には別の選択肢が見えてくる。

local AIの議論は新しいGPUに集中しがちだ。この記事は、モデルと実行環境をどれだけ噛み合わせられるかという別の軸を示している。

Source: point.free blog, Hacker News discussion.

10年前のXeonでGemma 4、焦点はGPUなしよりmemory bandwidth

Related Articles

13年前のXeonでGemma 4 26B、GPUなし5 tok/s

Kimi K3、2.8T open-weightでfrontierモデル競争に圧力

LocalLLaMA が注目した PokeClaw、Android 上で Gemma 4 を完全ローカル実行する mobile agent

Related Articles

13年前のXeonでGemma 4 26B、GPUなし5 tok/s
HNでの論点は「古い機械でも動いた」だけではなかった。ik_llama.cppへの修正により、dual Ivy Bridge Xeon上でGemma 4 26B-A4BをCPU-only実行し、local inferenceのコストと制御権が議論された。

Kimi K3、2.8T open-weightでfrontierモデル競争に圧力
Kimi K3は2.8Tパラメータ、1M-token context、native visionを掲げ、open-weightモデルの規模競争を一段押し上げた。full weightsは2026年7月27日までに公開予定で、現時点ではKimi.com、Kimi Code、APIで利用できる。

LocalLLaMA が注目した PokeClaw、Android 上で Gemma 4 を完全ローカル実行する mobile agent
LLM Reddit Apr 6, 2026 1 min read