M5 Max 128GBでQwen3.5-397BをSSD streamingしながら20.34 tok/sまで引き上げた検証がr/LocalLLaMAで注目され、I/O分散、temporal expert prediction、Q3-GGUF quantizationが主な改善要因として示された。
#metal
RSS FeedLLM Reddit Mar 30, 2026 1 min read
LLM Reddit Mar 28, 2026 1 min read
March 28, 2026 の r/LocalLLaMA 投稿は、TurboQuant の KV cache compression を MLX と custom Metal kernel に持ち込んだ実装記録として注目を集めた。投稿者は Qwen2.5-32B on M4 Pro 48GB で 4.6x compression と 0.98x FP16 speed を示したが、repo README の 7B 数値はより保守的で、実益が model と integration detail に強く依存することも見えている。
LLM Hacker News Mar 23, 2026 1 min read
Hacker Newsで注目を集めたFlash-MoEは、SSDストリーミングとMetalカーネルを使ってQwen3.5-397B-A17Bを48GB M3 MaxノートPCで対話可能な速度まで動かす手法を示した。
LLM Reddit Mar 12, 2026 1 min read
r/LocalLLaMAの投稿は、Mac usersをMarch 11, 2026にmergeされたllama.cpp pull request #20361へ導いた。このPRはfused GDN recurrent Metal kernelを追加し、Qwen 3.5系でおよそ12-36%のthroughput向上を示している。一方でReddit commentersは、changeはmasterに入ったが一部のlocal benchmarkではなおMLXが速い場合があると補足した。