32GBのMacBook Air M5で37個のLLMを比較したLocalLLaMAベンチマーク

Original: I benchmarked 37 LLMs on MacBook Air M5 32GB — full results + open-source tool to benchmark your own Mac View original →

Read in other languages: 한국어English
LLM Apr 7, 2026 By Insights AI (Reddit) 1 min read Source

最近の LocalLLaMA投稿 では、Mac LLM Bench というオープンリポジトリとともに、Apple Silicon上での local LLM 性能比較結果が共有された。作者は 32 GB の MacBook Air M5 で llama-bench と Q4_K_M quantization を使い、10 family・37 model を測定し、その数値と再現用スクリプトを公開している。

最も興味深いのは、単純な1位争いではない。投稿された結果では、Qwen 3.5 35B-A3B MoE が tg128 で 31.3 tokens/sec を記録しつつ、使用メモリは約 20.7 GB だった。一方で dense 32B 級モデルは、おおむね 18.6〜18.7 GB のメモリ使用量で約 2.5 tokens/sec 付近に集まっている。もちろん小型モデルはさらに高速で、Qwen 3 0.6B は 91.9 tok/s、Llama 3.2 1B は 59.4 tok/s だった。ただし本当に重要なのは、中〜大規模帯で interactivity と capability をどう両立するかという点だ。

このリポジトリは anecdotal なスクリーンショットより reproducibility を重視している。GGUF 経路は llama.cpp、MLX 経路は mlx_lm.benchmark を使い、pp128pp256pp512tg128tg256 といった fixed-token metrics を同じ形式で保存する。結果は chip generation と hardware configuration ごとに整理され、README 時点では M5 セクションに GGUF と MLX を合わせて 41 benchmarks が含まれていた。

開発者が読み取るべき点

このLocalLLaMA投稿の実用的な価値は、32 GB の Apple laptop における限界をかなり明確に示していることだ。dense 32B モデルにははっきりした wall があり、MoE 設計は状況によってより良い latency-to-capability tradeoff を提供できる可能性がある。もちろん、ここで公開された数値が普遍的な真実というわけではない。runtime の選択、quantization、熱条件、prompt の形などで結果は変わる。それでも、community-maintained な benchmark baseline としては十分に有用だ。

  • 今回の結果の基準マシンは MacBook Air M5 with 32 GB RAM。
  • 主要ツールは llama-bench で、別途 MLX benchmark もサポートしている。
  • プロジェクトの目標は、M1 から M5 までを横断する cross-generation benchmark database を作ることだ。

ローカルLLM利用者にとって重要なのは、一枚の leaderboard 画像ではない。ほかの開発者も自分のマシンで拡張できる repeatable benchmark workflow が現れたことのほうが意味は大きい。

Share: Long

Related Articles

LLM Hacker News 6d ago 1 min read

2026年3月31日にHacker Newsで上位に入ったOllamaのMLX発表は、Apple Siliconでのローカルcoding agent性能を押し上げる試みだ。MLX、NVFP4、改良されたcache戦略を組み合わせ、macOS上のローカル推論ボトルネックを減らすことを狙っている。

LLM Reddit Mar 30, 2026 1 min read

2026年3月のr/LocalLLaMAで126 pointsと45 commentsを集めた投稿は、Qwen3.5-27Bをllama.cppで動かしOpenCodeへ接続する実践ガイドを取り上げた。注目点は、quant選択、chat-template修正、VRAM予算、Tailscale networking、tool-callingの挙動といった、実際のローカルcoding環境を左右する運用ディテールを扱っていることだ。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.