r/LocalLLaMA、M5 MaxでQwen3.5-397Bを20.34 tok/sまで伸ばしたautoresearchを共有
Original: Autoresearch on Qwen3.5-397B, 36 experiments to reach 20.34 tok/s on M5 Max, honest results View original →
2026年3月30日にr/LocalLLaMAへ投稿された新しい記事は、local inference communityが好むタイプのbenchmark noteだ。headlineの数字だけでなく、実際にどこがbottleneckで、どの試みが失敗したのかまで詳しく書いている。投稿者は、M5 Max、128GB unified memory、40-core GPUを備えたMacBook Pro上でautoresearch loopを回し、Qwen3.5-397B-A17Bをdecode 20.34 tok/s、prefill 5.52 tok/sで動かしたと説明した。これは同一マシンでの出発点に対して約2倍、Dan WoodsがM3 Maxで出した4.36 tok/s baselineに対しては4.67倍にあたる。
土台になっているのはflash-moeとAnemll forkで、Apple Silicon上で209GBのmodelをSSD streamingするpure C/Metal pathだ。投稿によれば、最大の改善は一つの魔法のkernelではなく、system-levelの調整から出た。16 I/O threadとcache-io-split=4を有効にしてSSD channelへreadを分散し、それだけで約1.5 tok/sを上積みした。temporal expert predictionはtoken間routing correlation 27%を利用してSSD readとGPU computeを重ね、さらに4.3 tok/sを追加した。Q3-GGUF expertはpayloadを小さくしながら予想以上に良いperplexity trade-offを示し、CMD2 pre-encodeとfused Q/K/V projection kernelはMetal pathの細かいoverheadを削った。
同じくらい重要なのが失敗ログだ。投稿者は全実験の78%を破棄したという。1-bit QJL quantizationでは品質が崩壊し、ternary 2-bit sparsityも失敗、K=3 expert routingはmodel behaviorを壊した。cross-layer predictionのhit rateは0%だった。しかも勝ち筋だったQ3構成にも制約がある。long-form generation品質は明確に落ち、評価はMMLUやGPQAではなくperplexity中心で、結果は単一hardware platformでしか確認されていない。投稿者自身も、これはproduction claimではなくspeed researchだと明言している。
このbenchmarkにはもう一つ構造的な示唆がある。投稿者によれば、Apple Neural Engineは実行中ずっと0Wで、ほぼ遊休状態だった。dynamic MoE routingが、静的なprecompiled graphを前提にするANEと噛み合わないからだ。つまり、prefillやbatchingで巧妙な回避策が見つかるまで、かなり大きな理論上のcomputeが取り残される。r/LocalLLaMAがこの投稿から読み取った重要点は、超大型local modelの実行がもはやmodel単体の問題ではなく、storage、scheduler、kernel optimizationの問題でもあるということだ。失敗や限界まで開示した透明な研究ログは、headlineのtok/s数字そのものと同じくらい価値がある。
Related Articles
Hacker Newsで注目を集めたFlash-MoEは、SSDストリーミングとMetalカーネルを使ってQwen3.5-397B-A17Bを48GB M3 MaxノートPCで対話可能な速度まで動かす手法を示した。
r/LocalLLaMAの投稿は、Mac usersをMarch 11, 2026にmergeされたllama.cpp pull request #20361へ導いた。このPRはfused GDN recurrent Metal kernelを追加し、Qwen 3.5系でおよそ12-36%のthroughput向上を示している。一方でReddit commentersは、changeはmasterに入ったが一部のlocal benchmarkではなおMLXが速い場合があると補足した。
r/MachineLearning の新しい投稿が、TurboQuant を KV cache の話題から weight compression へ押し進めた。GitHub 実装は low-bit LLM inference の drop-in path を狙う。
Comments (0)
No comments yet. Be the first to comment!