製造終了のIntel OptaneメモリでローカルLLM(1兆パラメータ)を毎秒4トークンで動作
Original: Computer build using Intel Optane Persistent Memory - Can run 1 trillion parameter model at over 4 tokens/sec View original →
ビルドの概要
r/LocalLLaMAに投稿されたこのビルドは、Intel Optane Persistent Memory(PMem)を使用して1兆パラメータモデルKimi K2.5をローカルで毎秒4トークン以上で動作させることに成功した。677票超を集め、廃番ハードウェアの独創的な活用として注目を集めた。
Intel Optane PMem とは
Intel Optane PMem はDIMMフォームファクターのメモリモジュールで、DRAMとSSDの中間的な特性を持つ。Intelが製品ラインを終了したため、中古市場で同容量のDRAMより大幅に安く入手できる。
モデルの動作方法
Kimi K2.5のMoEアーキテクチャがこの構成に適していた。llama.cppのGPU/CPUハイブリッド推論を使用し、アテンション重みと密な層を12GB GPUに配置、スパースエキスパートの重みをOptane PMem上に置いた。768GBの実効RAMにより1兆パラメータモデルを収容できた。
意義
兆パラメータモデルのローカル実行は従来データセンター級ハードウェアが必要だった。廃番ハードウェアの創意工夫による活用が、より多くの研究者や愛好家にフロンティア規模モデルへのアクセスを開く可能性を示した。
Related Articles
LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。
LocalLLaMAが反応したのは翻訳appそのものではなく、detection、visual OCR、inpainting、local LLMを一つのworkflowにした点だった。
Comments (0)
No comments yet. Be the first to comment!