Skip to content

製造終了のIntel OptaneメモリでローカルLLM(1兆パラメータ)を毎秒4トークンで動作

Original: Computer build using Intel Optane Persistent Memory - Can run 1 trillion parameter model at over 4 tokens/sec View original →

Read in other languages: 한국어English
LLM May 12, 2026 By Insights AI (Reddit) 1 min read Source

ビルドの概要

r/LocalLLaMAに投稿されたこのビルドは、Intel Optane Persistent Memory(PMem)を使用して1兆パラメータモデルKimi K2.5をローカルで毎秒4トークン以上で動作させることに成功した。677票超を集め、廃番ハードウェアの独創的な活用として注目を集めた。

Intel Optane PMem とは

Intel Optane PMem はDIMMフォームファクターのメモリモジュールで、DRAMとSSDの中間的な特性を持つ。Intelが製品ラインを終了したため、中古市場で同容量のDRAMより大幅に安く入手できる。

モデルの動作方法

Kimi K2.5のMoEアーキテクチャがこの構成に適していた。llama.cppのGPU/CPUハイブリッド推論を使用し、アテンション重みと密な層を12GB GPUに配置、スパースエキスパートの重みをOptane PMem上に置いた。768GBの実効RAMにより1兆パラメータモデルを収容できた。

意義

兆パラメータモデルのローカル実行は従来データセンター級ハードウェアが必要だった。廃番ハードウェアの創意工夫による活用が、より多くの研究者や愛好家にフロンティア規模モデルへのアクセスを開く可能性を示した。

Share: Long

Related Articles

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment