32GBのMacBook Air M5で37個のLLMを比較したLocalLLaMAベンチマーク

最近の LocalLLaMA投稿では、Mac LLM Bench というオープンリポジトリとともに、Apple Silicon上での local LLM 性能比較結果が共有された。作者は 32 GB の MacBook Air M5 で llama-bench と Q4_K_M quantization を使い、10 family・37 model を測定し、その数値と再現用スクリプトを公開している。

最も興味深いのは、単純な1位争いではない。投稿された結果では、Qwen 3.5 35B-A3B MoE が tg128 で 31.3 tokens/sec を記録しつつ、使用メモリは約 20.7 GB だった。一方で dense 32B 級モデルは、おおむね 18.6〜18.7 GB のメモリ使用量で約 2.5 tokens/sec 付近に集まっている。もちろん小型モデルはさらに高速で、Qwen 3 0.6B は 91.9 tok/s、Llama 3.2 1B は 59.4 tok/s だった。ただし本当に重要なのは、中〜大規模帯で interactivity と capability をどう両立するかという点だ。

このリポジトリは anecdotal なスクリーンショットより reproducibility を重視している。GGUF 経路は llama.cpp、MLX 経路は mlx_lm.benchmark を使い、pp128、pp256、pp512、tg128、tg256 といった fixed-token metrics を同じ形式で保存する。結果は chip generation と hardware configuration ごとに整理され、README 時点では M5 セクションに GGUF と MLX を合わせて 41 benchmarks が含まれていた。

開発者が読み取るべき点

このLocalLLaMA投稿の実用的な価値は、32 GB の Apple laptop における限界をかなり明確に示していることだ。dense 32B モデルにははっきりした wall があり、MoE 設計は状況によってより良い latency-to-capability tradeoff を提供できる可能性がある。もちろん、ここで公開された数値が普遍的な真実というわけではない。runtime の選択、quantization、熱条件、prompt の形などで結果は変わる。それでも、community-maintained な benchmark baseline としては十分に有用だ。

今回の結果の基準マシンは MacBook Air M5 with 32 GB RAM。
主要ツールは llama-bench で、別途 MLX benchmark もサポートしている。
プロジェクトの目標は、M1 から M5 までを横断する cross-generation benchmark database を作ることだ。

ローカルLLM利用者にとって重要なのは、一枚の leaderboard 画像ではない。ほかの開発者も自分のマシンで拡張できる repeatable benchmark workflow が現れたことのほうが意味は大きい。

32GBのMacBook Air M5で37個のLLMを比較したLocalLLaMAベンチマーク

開発者が読み取るべき点

Related Articles

Ollama、Apple Silicon向けMLXベース実装をプレビュー公開

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化

r/LocalLLaMA、Qwen3.5-27Bをllama.cppとOpenCodeへつなぐ実践構成に注目

Comments (0)

Leave a Comment

Related Articles

Ollama、Apple Silicon向けMLXベース実装をプレビュー公開
2026年3月31日にHacker Newsで上位に入ったOllamaのMLX発表は、Apple Siliconでのローカルcoding agent性能を押し上げる試みだ。MLX、NVFP4、改良されたcache戦略を組み合わせ、macOS上のローカル推論ボトルネックを減らすことを狙っている。

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化
Ollamaが2026年3月30日にApple Silicon向けのMLX previewを公開した。MLX、NVFP4、改良されたcacheを組み合わせ、prefillとdecodeの両方を高速化したとしてHacker Newsでも注目を集めた。

r/LocalLLaMA、Qwen3.5-27Bをllama.cppとOpenCodeへつなぐ実践構成に注目
LLM Reddit Mar 30, 2026 1 min read

開発者が読み取るべき点

Related Articles

Ollama、Apple Silicon向けMLXベース実装をプレビュー公開

Ollama、Apple Silicon向けMLX previewを公開 ローカルLLM性能を大幅強化

r/LocalLLaMA、Qwen3.5-27Bをllama.cppとOpenCodeへつなぐ実践構成に注目

Comments (0)

Leave a Comment

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化