HNがこのpostを面白がった理由は、Apple Silicon unified memoryでWasm sandboxとGPU bufferが本当に同じbytesを扱えるのかという実装上の境界だった。
#apple-silicon
RSS FeedHNは構想の大きさに反応しつつ、すぐに弱点へ向かった。marketplace demand、MDM trust、Mac privacy claim、operator economicsが論点だった。Darkbloomはidle Apple SiliconでOpenAI-compatible private inferenceを安く出せると語るが、コメント欄はそれをlanding pageではなくarchitectureとincentiveの問題として読んだ。
LocalLLaMAでは、この投稿が派手なspeed screenshotではなく、baselineを見直してから公開されたengineering workとして受け止められた。2026年4月13日の投稿では、stock MLX基準でQwen3.5-9Bの2048 tokens生成が30.96 tok/sから127.07 tok/sへ上がり、acceptanceは89.36%と報告された。
r/LocalLLaMAの新しい投稿は、M5 MaxとMLX 0.31.1上でのDFlash speculative decodingを公開し、Qwen3.5-9Bで127.07 tok/s、4.13xのspeedupを報告した。重要なのは派手な数字より、再現条件とbandwidth bottleneckの解釈が具体的な点だ。
LocalLLaMAの実装報告は、Apple Silicon向けnative MLX DFlash runtimeがQwen系inferenceを複数条件で2倍から3倍以上高速化すると主張する。注目点はspeedupだけでなく、greedy baselineとbit-for-bit identical outputを維持したと説明しているところだ。
LocalLLaMAで共有されたMac LLM Benchの結果は、32GBのApple Silicon環境ではdense 32B系よりMoEモデルのほうが良いlatency-to-capabilityのバランスを示す可能性があることを示した。重要なのは単一の順位表より、再現可能なbenchmark workflowそのものだ。
Show HNに投稿されたParlorは、ブラウザの音声とカメラ入力をGemma 4 E2BとKokoroで処理し、ローカルで音声応答まで完結させる。Apple M3 Proで約2.5〜3.0秒のend-to-end latencyを示している点が印象的だ。
LocalLLaMA のデモ投稿は、Gemma 4 E2B で speech と vision を理解し、Kokoro で text-to-speech を行う Parlor を紹介した。README では Apple M3 Pro 上で end-to-end latency 約 2.5-3.0 秒、decode speed 約 83 tokens/sec とされている。
2026年3月31日にHacker Newsで上位に入ったOllamaのMLX発表は、Apple Siliconでのローカルcoding agent性能を押し上げる試みだ。MLX、NVFP4、改良されたcache戦略を組み合わせ、macOS上のローカル推論ボトルネックを減らすことを狙っている。
r/LocalLLaMAで共有された新しい実験は、Apple Neural Engineをllama.cppのprefill経路へつなぐ試みだ。公式upstream機能ではないが、M4 ProでCPU比の大きな加速値が示され、コミュニティの関心を集めた。
Ollamaが2026年3月30日にApple Silicon向けのMLX previewを公開した。MLX、NVFP4、改良されたcacheを組み合わせ、prefillとdecodeの両方を高速化したとしてHacker Newsでも注目を集めた。
M5 Max 128GBでQwen3.5-397BをSSD streamingしながら20.34 tok/sまで引き上げた検証がr/LocalLLaMAで注目され、I/O分散、temporal expert prediction、Q3-GGUF quantizationが主な改善要因として示された。