Flash-MoE: ノートPCで397Bパラメータモデルを動かす

Hacker Newsのスレッドは、クロール時点で194ポイント、68コメントだった。リンク先のFlash-MoEは、48 GBのunified memoryを持つMacBook Pro M3 MaxでQwen3.5-397B-A17Bを4.4+ tokens/secondで動かすpure C/Metal inference engineだと説明している。作者は単なるデモではなく、tool callingを含むproduction-quality outputを狙った実装だと位置づけている。

最も重要なのはメモリ設計だ。READMEによれば、モデル全体は209 GBあるため、すべてのexpertをRAMに常駐させるのではなく、必要なexpertだけをSSDから逐次読み込む。現時点の最良構成は4-bit experts + FMA kernelで4.36 tok/s。2-bit expertsはさらに高速だが、JSON出力が壊れてtool callingが不安定になるため、実用経路としては4-bitを採用しているという。

アーキテクチャの説明もかなり具体的だ。モデルは60 transformer layersで構成され、そのうち45層がGatedDeltaNetのlinear attention、15層が通常のfull attentionとされる。各レイヤーには512 expertsがあり、tokenごとにK=4 expertsと1つのshared expertだけが有効化される。巨大な総パラメータ数に対して、実際に毎ステップ使うworking setを小さく抑えるのがこの設計の核心だ。

実装は非常に低レベルで、hand-tuned Metal compute shaders、FMA最適化されたdequant kernel、linear attention向けのAccelerate BLAS、そして独自cacheを作らずmacOS page cacheを活用する"Trust the OS"方針が並ぶ。READMEでは、このpage cacheが自然に約71%のhit rateを達成し、いくつか試したcustom caching案より良かったと述べている。

対象ハードウェア: MacBook Pro M3 Max, 48 GB unified memory, 1 TB SSD
最良報告: 4-bit experts + FMA kernelで4.36 tok/s
主なトレードオフ: 2-bitは高速だがJSONとtool useの信頼性が落ちる

Flash-MoEが面白いのは、「超巨大モデルは超巨大サーバーが必要」という前提を少し崩している点だ。もちろん、これは特定のApple Silicon環境に密着したエンジニアリング実験であり、誰でもすぐ使えるturnkey製品ではない。それでも、sparse MoE、SSD streaming、低レベルkernel最適化を組み合わせれば、397B級モデルでもノートPC級の環境に持ち込めることを、かなり具体的な設計と数値で示した事例として価値がある。

Flash-MoE: ノートPCで397Bパラメータモデルを動かす

Related Articles

Unsloth Studio beta、local model workflowを1つの画面にまとめにいく

Hacker Newsで議論、16 GPU版Autoresearchは何を変えたのか

LocalLLaMAで注目のMamba-3、inference効率を軸に設計されたstate space model

Comments (0)

Leave a Comment

Related Articles

Unsloth Studio beta、local model workflowを1つの画面にまとめにいく

Hacker Newsで議論、16 GPU版Autoresearchは何を変えたのか
SkyPilotはClaude Codeが8時間で約910件の autoresearch 実験を回したと説明し、Hacker Newsでは本当の進歩が agent の戦略なのか、インフラなのか、その両方なのかが議論になった。

LocalLLaMAで注目のMamba-3、inference効率を軸に設計されたstate space model