GLM5.2を自宅で動かす現実、LocalLLaMAが見たGPU請求書
Original: GLM5.2 on 5x Pro 6000s and a 5090, an expensive journey View original →
LocalLLaMAで大きく伸びたGLM5.2の投稿は、ローカルLLMの熱気をそのままハードウェア費用に変換したような内容だった。投稿者は5枚のRTX PRO 6000とRTX 5090を使った構成を「expensive journey」と呼び、VRAM、電力、冷却、スロット、予算の問題を前面に出した。
大型モデルを手元で動かせることには明確な魅力がある。データを外に出さず、APIの制限や変更に左右されず、実験を自分のペースで進められる。ただしモデルが大きくなるほど、課題はソフトウェアだけでは済まない。複数GPUで推論するには、メモリ容量、帯域、熱、安定性をまとめて扱えるシステムが必要になる。
コメント欄の関心も、単なる性能自慢ではなかった。これは趣味なのか、研究なのか、事業で回収できる投資なのかという問いが出た。大学の授業料や高メモリGPUの価格と比べる反応もあり、ローカルAIの議論がベンチマークから総所有コストへ移りつつあることが見える。
GLM5.2のようなモデルは、公開モデルの到達点を示す。一方で、ダウンロード可能であることと普通のデスクトップで扱いやすいことは別問題だ。ローカルLLMの次の普及段階は、モデル品質だけでなく、本格的な推論をどこまで個人の予算、部屋、電源に収められるかで決まっていく。
Related Articles
r/LocalLLaMAではIntel Arc Pro B70/B65の話題が213 upvotes、133 commentsを集めた。IntelはB70を2026年3月25日から$949 starting priceで提供し、B65はmid-Aprilに投入するとしている。
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
LocalLLaMAで注目されたのは速度の数字だけでなく、FP4、DFlash、commodity GPU向けkernelが外部でも検証できるかだった。