10年前のXeonでGemma 4、焦点はGPUなしよりmemory bandwidth
Original: A 10 year old Xeon is all you need View original →
2016年のIntel Xeon E5-2620 v4、128GB DDR3、GPUなし。この構成でGemma 4の26B級モデルを実用に近い速度で動かしたというブログ記事がHacker Newsで注目を集めた。筆者はOllamaの標準経路ではなくik_llama.cppを使い、MTP drafter、speculative decoding、CPU MoE関連オプション、flash attention、runtime repackなど複数の低レベル設定を組み合わせている。
重要なのは、古いサーバーが万能になったという話ではない。LLMのdecodingでは、次のtokenを生成するたびに大量のweightsをメモリから読み出す。CPUの演算性能だけでなく、memory bandwidthが強い制約になる。DDR3環境ではその制約がはっきり見えるため、runtimeの細かなレバーを理解しないと速度は出ない。
コメント欄では、驚きだけでなく現実的な費用も議論された。古いXeonサーバーは入手しやすくても、電力、騒音、熱のコストがある。クラウドAPIの価格と比較すべきだという指摘も出た。一方で、2012年世代のXeonと少ないRAMでGemma 26B-A4B Q4を8〜12 tokens/s程度で動かしたという体験談もあり、低負荷の自動化やオフライン実験には意味があるという見方もあった。
この事例は、local inferenceの入口を少し下げる。最新GPUを置き換えるものではないが、model format、quantization、drafter、runtime設定を理解すれば、古い機材も実験環境になる。大きなcontextや高いthroughputが必要なら現代的なGPUは依然として有利だが、個人の検証やプライベートな軽作業には別の選択肢が見えてくる。
local AIの議論は新しいGPUに集中しがちだ。この記事は、モデルと実行環境をどれだけ噛み合わせられるかという別の軸を示している。
Source: point.free blog, Hacker News discussion.
Related Articles
Redditで注目されたのは、Claude代替という見出しよりもtool call error rate 12%という具体的な限界だった。
QVAC SDK 0.12.0はTurboQuantをopt-in機能として追加し、ローカルLLMのruntime context memoryを最大5倍削減する。8GB級GPUでも4B modelの262K contextを狙える点が大きい。
議論の中心は「AIがどれだけ速く書けるか」ではなく、遅いレビューの反復で信頼できるコードに近づけるかだった。
Comments (0)
No comments yet. Be the first to comment!