Ollama、Apple Silicon向けMLXベース実装をプレビュー公開
Original: Ollama is now powered by MLX on Apple Silicon in preview View original →
2026年3月31日、Ollamaの新しいMLXランタイムを扱ったHacker News投稿は605ポイント、328件のコメントを集めた。リンク先は2026年3月30日に公開されたOllamaの発表で、Apple Silicon向けビルドをAppleのMLX framework上で動かし、unified memoryをより効率よく使うという内容だ。
公式発表によれば、このpreviewは単なるデモではなく、ローカルcoding agentとagentic workflowを主な対象としている。Ollamaは、新しいスタックによってtime to first tokenとdecode速度の両方が改善し、M5、M5 Pro、M5 MaxではGPU Neural Acceleratorsも活用できると説明している。公開時のデモではNVFP4で量子化したAlibabaのQwen3.5-35B-A3Bを使い、Ollamaは0.19でint4 quantization時にprefill 1851 token/s、decode 134 token/sまでさらに伸びる可能性があると述べた。
今回の発表で重要な点
- Apple Silicon向け推論経路をMLXベースに組み直した。
- NVFP4対応により、品質を維持しながらmemory bandwidthとstorage負荷の低減を狙う。
- conversation間のcache再利用、intelligent checkpoints、smarter evictionを追加し、長時間のagentセッションに最適化した。
- 現時点のpreviewはQwen3.5 codingモデル中心で、32GB超のunified memoryを持つMacが推奨される。
注目すべきなのは単純なtoken速度だけではない。Claude Code、OpenCode、Codexのようなツールは大きなsystem promptやtool traceを何度も送り直すため、ローカル実行では待ち時間が目立ちやすい。Ollamaはcacheをbranch間で再利用し、promptの節目にcheckpointを残すことで、その種の遅さを抑えようとしている。つまり今回の更新は、ローカルagentを日常の開発フローに入れやすくするための基盤整備として見るべきだ。
もっとも、公開されている数値はベンダーが示したlaunch-dayデータであり、旧世代のM-series機や実際のIDE連携で同じ傾向が出るかは別途検証が必要だ。それでもHacker Newsで反応が大きかったのは、開発者がconsumer Macとcloud inferenceの間の距離を縮めるローカルLLMスタックを求めていたからだ。今回のMLX移行は、その期待にかなり直接的に応える発表だと言える。
コミュニティソース: Hacker News議論。一次ソース: Ollamaブログ。
Related Articles
Ollamaが2026年3月30日にApple Silicon向けのMLX previewを公開した。MLX、NVFP4、改良されたcacheを組み合わせ、prefillとdecodeの両方を高速化したとしてHacker Newsでも注目を集めた。
March 28, 2026 の r/LocalLLaMA 投稿は、TurboQuant の KV cache compression を MLX と custom Metal kernel に持ち込んだ実装記録として注目を集めた。投稿者は Qwen2.5-32B on M4 Pro 48GB で 4.6x compression と 0.98x FP16 speed を示したが、repo README の 7B 数値はより保守的で、実益が model と integration detail に強く依存することも見えている。
高スコアのLocalLLaMA投稿では、16GBのM1 Pro上でQwen 3.5 9Bがmemory recallと基本的なtool callingを実運用向けにこなしつつ、creative reasoningでは依然としてfrontier modelに及ばなかったと報告された。
Comments (0)
No comments yet. Be the first to comment!