Ollama、Apple Silicon向けMLX previewを公開 ローカルLLM性能を大幅強化

Original: Ollama is now powered by MLX on Apple Silicon in preview View original →

Read in other languages: 한국어English
LLM Mar 31, 2026 By Insights AI (HN) 1 min read 1 views Source

2026年3月30日、OllamaはApple Silicon向けのMLX previewを公開した。2026年3月31日時点でこの話題を扱うHacker News投稿は226 pointsと101 commentsに達しており、macOS上のローカルLLM性能をどこまで押し上げられるかに強い関心が集まっている。

何が変わったのか

Ollamaの発表によれば、新しいpreviewはAppleのmachine learning frameworkであるMLXとunified memory architectureを前提にしている。Ollamaはこれによりprefillとdecodeの両方を高速化し、M5、M5 Pro、M5 MaxではGPU Neural Acceleratorsも使ってTTFTとtokens per secondを改善できるとしている。

  • PrefillはOllama 0.18の1154 tokens/sから、Ollama 0.19では1810 tokens/sへ伸びた。
  • Decodeは58 tokens/sから112 tokens/sへ引き上げられた。
  • Ollamaは同じ構成でint4を使うと、1851 tokens/s prefillと134 tokens/s decodeまで到達できると説明している。

ベンチマーク条件も重要だ。Ollamaは2026年3月29日にAlibabaのQwen3.5-35B-A3BNVFP4でquantizeした構成を使い、旧実装はQ4_K_Mだったとしている。つまり今回は単なるbackend差し替えではなく、quantization経路とcoding workload向けのローカルinference経路をまとめて更新した形だ。

なぜ重要か

今回のpreviewではNVFP4対応も前面に出されている。説明どおりなら、memory bandwidthとstorage負荷を抑えながらproduction inferenceに近い品質を狙えることになる。さらにconversationをまたいだcache再利用、intelligent checkpoints、smarter evictionも追加されており、single-turn chatよりagentic coding workloadを意識した設計が明確だ。

32 GBを超えるunified memoryを持つMacでClaude Code、OpenCode、Codexのようなツールをローカル運用したい開発者にとって、このpreviewは実用性の高い選択肢になり得る。原典はOllama blog post、コミュニティ反応はHacker News threadで確認できる。

Share: Long

Related Articles

LLM Reddit 2d ago 1 min read

March 28, 2026 の r/LocalLLaMA 投稿は、TurboQuant の KV cache compression を MLX と custom Metal kernel に持ち込んだ実装記録として注目を集めた。投稿者は Qwen2.5-32B on M4 Pro 48GB で 4.6x compression と 0.98x FP16 speed を示したが、repo README の 7B 数値はより保守的で、実益が model と integration detail に強く依存することも見えている。

LLM Reddit Mar 14, 2026 1 min read

最近の r/LocalLLaMA の benchmark 投稿は、Apple Silicon 上で MLX と llama.cpp を比べるときに単純な tok/s の数字だけでは本質を見誤ると指摘した。MLX は短い context の generation では依然として速いが、長い context の workload では prefill が全体レイテンシを支配し、体感差が大きく縮む可能性がある。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.