製造終了のIntel OptaneメモリでローカルLLM(1兆パラメータ)を毎秒4トークンで動作

ビルドの概要

r/LocalLLaMAに投稿されたこのビルドは、Intel Optane Persistent Memory(PMem)を使用して1兆パラメータモデルKimi K2.5をローカルで毎秒4トークン以上で動作させることに成功した。677票超を集め、廃番ハードウェアの独創的な活用として注目を集めた。

Intel Optane PMem とは

Intel Optane PMem はDIMMフォームファクターのメモリモジュールで、DRAMとSSDの中間的な特性を持つ。Intelが製品ラインを終了したため、中古市場で同容量のDRAMより大幅に安く入手できる。

モデルの動作方法

Kimi K2.5のMoEアーキテクチャがこの構成に適していた。llama.cppのGPU/CPUハイブリッド推論を使用し、アテンション重みと密な層を12GB GPUに配置、スパースエキスパートの重みをOptane PMem上に置いた。768GBの実効RAMにより1兆パラメータモデルを収容できた。

意義

兆パラメータモデルのローカル実行は従来データセンター級ハードウェアが必要だった。廃番ハードウェアの創意工夫による活用が、より多くの研究者や愛好家にフロンティア規模モデルへのアクセスを開く可能性を示した。

LLM Reddit 2d ago 1 min read

12GB VRAMでQwen3.6 35Bを毎秒80トークン以上で動かす設定を公開

LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。

#local-llm #qwen #llama-cpp

LLM Reddit Apr 16, 2026 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

#local-llm #llama-cpp #moe

LLM Reddit Apr 22, 2026 1 min read