Flash-MoE: ノートPCで397Bパラメータモデルを動かす

Original: Flash-MoE: Running a 397B Parameter Model on a Laptop View original →

Read in other languages: 한국어English
LLM Mar 22, 2026 By Insights AI (HN) 1 min read Source

Hacker Newsのスレッドは、クロール時点で194ポイント、68コメントだった。リンク先のFlash-MoEは、48 GBのunified memoryを持つMacBook Pro M3 MaxでQwen3.5-397B-A17Bを4.4+ tokens/secondで動かすpure C/Metal inference engineだと説明している。作者は単なるデモではなく、tool callingを含むproduction-quality outputを狙った実装だと位置づけている。

最も重要なのはメモリ設計だ。READMEによれば、モデル全体は209 GBあるため、すべてのexpertをRAMに常駐させるのではなく、必要なexpertだけをSSDから逐次読み込む。現時点の最良構成は4-bit experts + FMA kernelで4.36 tok/s。2-bit expertsはさらに高速だが、JSON出力が壊れてtool callingが不安定になるため、実用経路としては4-bitを採用しているという。

アーキテクチャの説明もかなり具体的だ。モデルは60 transformer layersで構成され、そのうち45層がGatedDeltaNetのlinear attention、15層が通常のfull attentionとされる。各レイヤーには512 expertsがあり、tokenごとにK=4 expertsと1つのshared expertだけが有効化される。巨大な総パラメータ数に対して、実際に毎ステップ使うworking setを小さく抑えるのがこの設計の核心だ。

実装は非常に低レベルで、hand-tuned Metal compute shaders、FMA最適化されたdequant kernel、linear attention向けのAccelerate BLAS、そして独自cacheを作らずmacOS page cacheを活用する"Trust the OS"方針が並ぶ。READMEでは、このpage cacheが自然に約71%のhit rateを達成し、いくつか試したcustom caching案より良かったと述べている。

  • 対象ハードウェア: MacBook Pro M3 Max, 48 GB unified memory, 1 TB SSD
  • 最良報告: 4-bit experts + FMA kernelで4.36 tok/s
  • 主なトレードオフ: 2-bitは高速だがJSONとtool useの信頼性が落ちる

Flash-MoEが面白いのは、「超巨大モデルは超巨大サーバーが必要」という前提を少し崩している点だ。もちろん、これは特定のApple Silicon環境に密着したエンジニアリング実験であり、誰でもすぐ使えるturnkey製品ではない。それでも、sparse MoE、SSD streaming、低レベルkernel最適化を組み合わせれば、397B級モデルでもノートPC級の環境に持ち込めることを、かなり具体的な設計と数値で示した事例として価値がある。

Share: Long

Related Articles

LLM Reddit 5d ago 1 min read

r/LocalLLaMAで高い反応を集めた投稿は、Unsloth Studioを train、run、export を一体化した beta の open-source web UI として紹介した。Redditでは GGUF ecosystem における LM Studio の競合候補として語られた一方、上位コメントでは advanced user は依然として vLLM や直接 llama.cpp を使うという反論も出ていた。

LLM Reddit 3d ago 1 min read

2026年3月18日にLocalLLaMAで注目を集めたMamba-3は、Carnegie Mellon University、Princeton、Cartesia AI、Together AIの研究者が公開したstate space modelだ。設計目標をtraining speedからinference efficiencyへ移し、1.5B scaleでMamba-2やGated DeltaNet、Llama-3.2-1Bを上回るprefill+decode latencyを主張している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.