Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化

2026年3月30日、OllamaはApple Silicon向けのMLX previewを公開した。2026年3月31日時点でこの話題を扱うHacker News投稿は226 pointsと101 commentsに達しており、macOS上のローカルLLM性能をどこまで押し上げられるかに強い関心が集まっている。

何が変わったのか

Ollamaの発表によれば、新しいpreviewはAppleのmachine learning frameworkであるMLXとunified memory architectureを前提にしている。Ollamaはこれによりprefillとdecodeの両方を高速化し、M5、M5 Pro、M5 MaxではGPU Neural Acceleratorsも使ってTTFTとtokens per secondを改善できるとしている。

PrefillはOllama 0.18の1154 tokens/sから、Ollama 0.19では1810 tokens/sへ伸びた。
Decodeは58 tokens/sから112 tokens/sへ引き上げられた。
Ollamaは同じ構成でint4を使うと、1851 tokens/s prefillと134 tokens/s decodeまで到達できると説明している。

ベンチマーク条件も重要だ。Ollamaは2026年3月29日にAlibabaのQwen3.5-35B-A3BをNVFP4でquantizeした構成を使い、旧実装はQ4_K_Mだったとしている。つまり今回は単なるbackend差し替えではなく、quantization経路とcoding workload向けのローカルinference経路をまとめて更新した形だ。

なぜ重要か

今回のpreviewではNVFP4対応も前面に出されている。説明どおりなら、memory bandwidthとstorage負荷を抑えながらproduction inferenceに近い品質を狙えることになる。さらにconversationをまたいだcache再利用、intelligent checkpoints、smarter evictionも追加されており、single-turn chatよりagentic coding workloadを意識した設計が明確だ。

32 GBを超えるunified memoryを持つMacでClaude Code、OpenCode、Codexのようなツールをローカル運用したい開発者にとって、このpreviewは実用性の高い選択肢になり得る。原典はOllama blog post、コミュニティ反応はHacker News threadで確認できる。

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化

何が変わったのか

なぜ重要か

Related Articles

Ollama、Apple Silicon向けMLXベース実装をプレビュー公開

r/LocalLLaMA、M1 ProでQwen 3.5 9Bを実際のローカルagentとして試す

r/LocalLLaMA が追った TurboQuant on MLX、KV cache compression が FP16 speed に迫る

Comments (0)

Leave a Comment

Related Articles

Ollama、Apple Silicon向けMLXベース実装をプレビュー公開
LLM Hacker News Apr 1, 2026 1 min read

r/LocalLLaMA、M1 ProでQwen 3.5 9Bを実際のローカルagentとして試す
LLM Reddit Mar 10, 2026 1 min read

r/LocalLLaMA が追った TurboQuant on MLX、KV cache compression が FP16 speed に迫る
LLM Reddit Mar 28, 2026 1 min read