#cpu-inference

LLM Hacker News Jul 16, 2026 1 min read

13年前のXeonでGemma 4 26B、GPUなし5 tok/s

HNでの論点は「古い機械でも動いた」だけではなかった。ik_llama.cppへの修正により、dual Ivy Bridge Xeon上でGemma 4 26B-A4BをCPU-only実行し、local inferenceのコストと制御権が議論された。

LLM Hacker News Jun 2, 2026 1 min read

大きな反応を集めた理由は古いCPUの意外性だけでなく、LLM inferenceの現実的なボトルネックが見えたことにある。

AI Hacker News Mar 20, 2026 1 min read

2026年3月19日にHacker Newsへ投稿されたKitten TTSスレッドは、クロール時点で512ポイントと172件のコメントを集めた。KittenMLは15M、40M、80MのONNX音声合成モデル、8つのEnglish voice、24kHz出力、CPU推論を前面に出している。

LLM Hacker News Mar 11, 2026 1 min read

Hacker NewsはMicrosoftのbitnet.cppを再浮上させ、新しい100B checkpointというよりも、1.58-bit inferenceと省電力なlocal LLM運用へ向けたinfra更新として受け止めた。