r/LocalLLaMA、M5 MaxでQwen3.5-397Bを20.34 tok/sまで伸ばしたautoresearchを共有

2026年3月30日にr/LocalLLaMAへ投稿された新しい記事は、local inference communityが好むタイプのbenchmark noteだ。headlineの数字だけでなく、実際にどこがbottleneckで、どの試みが失敗したのかまで詳しく書いている。投稿者は、M5 Max、128GB unified memory、40-core GPUを備えたMacBook Pro上でautoresearch loopを回し、Qwen3.5-397B-A17Bをdecode 20.34 tok/s、prefill 5.52 tok/sで動かしたと説明した。これは同一マシンでの出発点に対して約2倍、Dan WoodsがM3 Maxで出した4.36 tok/s baselineに対しては4.67倍にあたる。

土台になっているのはflash-moeとAnemll forkで、Apple Silicon上で209GBのmodelをSSD streamingするpure C/Metal pathだ。投稿によれば、最大の改善は一つの魔法のkernelではなく、system-levelの調整から出た。16 I/O threadとcache-io-split=4を有効にしてSSD channelへreadを分散し、それだけで約1.5 tok/sを上積みした。temporal expert predictionはtoken間routing correlation 27%を利用してSSD readとGPU computeを重ね、さらに4.3 tok/sを追加した。Q3-GGUF expertはpayloadを小さくしながら予想以上に良いperplexity trade-offを示し、CMD2 pre-encodeとfused Q/K/V projection kernelはMetal pathの細かいoverheadを削った。

同じくらい重要なのが失敗ログだ。投稿者は全実験の78%を破棄したという。1-bit QJL quantizationでは品質が崩壊し、ternary 2-bit sparsityも失敗、K=3 expert routingはmodel behaviorを壊した。cross-layer predictionのhit rateは0%だった。しかも勝ち筋だったQ3構成にも制約がある。long-form generation品質は明確に落ち、評価はMMLUやGPQAではなくperplexity中心で、結果は単一hardware platformでしか確認されていない。投稿者自身も、これはproduction claimではなくspeed researchだと明言している。

このbenchmarkにはもう一つ構造的な示唆がある。投稿者によれば、Apple Neural Engineは実行中ずっと0Wで、ほぼ遊休状態だった。dynamic MoE routingが、静的なprecompiled graphを前提にするANEと噛み合わないからだ。つまり、prefillやbatchingで巧妙な回避策が見つかるまで、かなり大きな理論上のcomputeが取り残される。r/LocalLLaMAがこの投稿から読み取った重要点は、超大型local modelの実行がもはやmodel単体の問題ではなく、storage、scheduler、kernel optimizationの問題でもあるということだ。失敗や限界まで開示した透明な研究ログは、headlineのtok/s数字そのものと同じくらい価値がある。

r/LocalLLaMA、M5 MaxでQwen3.5-397Bを20.34 tok/sまで伸ばしたautoresearchを共有

Related Articles

RedditがMac向けQwen 3.5のllama.cpp Metal speedupを注視

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告

Flash-MoE、48GB MacBook Proで397B Qwenを動かす実験を公開

Comments (0)

Leave a Comment

Related Articles

RedditがMac向けQwen 3.5のllama.cpp Metal speedupを注視
LLM Reddit Mar 12, 2026 1 min read

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告
LLM Reddit Apr 11, 2026 1 min read

Flash-MoE、48GB MacBook Proで397B Qwenを動かす実験を公開
LLM Hacker News Mar 23, 2026 1 min read