Ollama、Apple Silicon向けMLXベース実装をプレビュー公開

Original: Ollama is now powered by MLX on Apple Silicon in preview View original →

Read in other languages: 한국어English
LLM Apr 1, 2026 By Insights AI (HN) 1 min read Source

2026年3月31日、Ollamaの新しいMLXランタイムを扱ったHacker News投稿は605ポイント、328件のコメントを集めた。リンク先は2026年3月30日に公開されたOllamaの発表で、Apple Silicon向けビルドをAppleのMLX framework上で動かし、unified memoryをより効率よく使うという内容だ。

公式発表によれば、このpreviewは単なるデモではなく、ローカルcoding agentとagentic workflowを主な対象としている。Ollamaは、新しいスタックによってtime to first tokenとdecode速度の両方が改善し、M5、M5 Pro、M5 MaxではGPU Neural Acceleratorsも活用できると説明している。公開時のデモではNVFP4で量子化したAlibabaのQwen3.5-35B-A3Bを使い、Ollamaは0.19でint4 quantization時にprefill 1851 token/s、decode 134 token/sまでさらに伸びる可能性があると述べた。

今回の発表で重要な点

  • Apple Silicon向け推論経路をMLXベースに組み直した。
  • NVFP4対応により、品質を維持しながらmemory bandwidthとstorage負荷の低減を狙う。
  • conversation間のcache再利用、intelligent checkpoints、smarter evictionを追加し、長時間のagentセッションに最適化した。
  • 現時点のpreviewはQwen3.5 codingモデル中心で、32GB超のunified memoryを持つMacが推奨される。

注目すべきなのは単純なtoken速度だけではない。Claude Code、OpenCode、Codexのようなツールは大きなsystem promptやtool traceを何度も送り直すため、ローカル実行では待ち時間が目立ちやすい。Ollamaはcacheをbranch間で再利用し、promptの節目にcheckpointを残すことで、その種の遅さを抑えようとしている。つまり今回の更新は、ローカルagentを日常の開発フローに入れやすくするための基盤整備として見るべきだ。

もっとも、公開されている数値はベンダーが示したlaunch-dayデータであり、旧世代のM-series機や実際のIDE連携で同じ傾向が出るかは別途検証が必要だ。それでもHacker Newsで反応が大きかったのは、開発者がconsumer Macとcloud inferenceの間の距離を縮めるローカルLLMスタックを求めていたからだ。今回のMLX移行は、その期待にかなり直接的に応える発表だと言える。

コミュニティソース: Hacker News議論。一次ソース: Ollamaブログ

Share: Long

Related Articles

LLM Reddit 3d ago 1 min read

March 28, 2026 の r/LocalLLaMA 投稿は、TurboQuant の KV cache compression を MLX と custom Metal kernel に持ち込んだ実装記録として注目を集めた。投稿者は Qwen2.5-32B on M4 Pro 48GB で 4.6x compression と 0.98x FP16 speed を示したが、repo README の 7B 数値はより保守的で、実益が model と integration detail に強く依存することも見えている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.