MacBook Air M5でlocal coding LLM 21個比較、LocalLLaMAが欲しかった実測値
Original: I benchmarked 21 local LLMs on a MacBook Air M5 for code quality AND speed View original →
r/LocalLLaMAに投稿されたMacBook Air M5 benchmarkは、このcommunityが好む「実際のconsumer hardwareで動かした」タイプの検証だ。投稿者は“bro trust me”式のcoding model recommendationを減らしたいとして、21個のlocal LLMを同じ条件でHumanEval+ pass@1、token speed、memory footprintで比較した。Medium writeup、GitHub repo、Hugging Face datasetも添えられている。
最大の数字はQwen 3.6 35B-A3Bである。投稿の表では、このMoE modelがHumanEval+ 89.6%、16.9 tok/s、20.1 GBで首位だった。投稿者は、total parameterがqualityに、active parameterがspeedに効くという意味で、このmodelがよいバランスを取っていると見ている。Qwen 2.5 Coder 32Bは87.2%と近いが2.5 tok/sと遅く、Qwen 2.5 Coder 7Bは84.2%、11.3 tok/s、4.5 GBでbest bang-for-RAMに近い結果だった。
コメント欄で議論になったのはGemma 4の低いscoreだ。Gemma 4 31Bは31.1%、Gemma 4 E4Bは14.6%、Gemma 4 26B-A4B MoEは12.2%にとどまった。投稿者はQ4_K_M quantizationがGemma 4 architectureに不利に働いている可能性や、HumanEval+のtask distributionが強みを反映していない可能性を挙げた。コメントでは、Gemma 4のtool-calling問題、tool call直前でのpremature stop、Googleやllama.cpp側のfixがどこまで効いているかという実務的な推測も出ていた。
この投稿の価値はleaderboardそのものではなく、constraint-awareな見方にある。MacBook Airのようなdeviceでは、speedとRAMを一緒に見なければdaily coding assistantとして使えるか判断できない。Phi 4 Mini 3.8Bが70.7%、19.6 tok/s、2.5 GBでsleeper pickのように見えた点も同じ文脈だ。
元の議論はReddit discussion、詳細は投稿内のMediumとGitHub repoで読める。LocalLLaMAが反応した理由ははっきりしている。local LLM選びは、どのmodelが一番賢いかだけでなく、自分のhardwareで十分に速く、十分に正確かという問題になっている。
Related Articles
LocalLLaMAでは速度比較というより、長くて厳しい生成タスクを最後まで壊さず仕上げられるかが論点になった。同じMacBook Pro M5 Max上で、Qwen 3.6 27Bは速く長く書き、Gemma 4 31Bは少ないトークンでゲームロジックをまとめきった。
LocalLLaMAで話題になったポストで、Qwen3.6 35B A3BがCodexとpiエージェントを組み合わせたスキルベースプロンプティングにより、VPS管理やPDF変換などの複雑なワークフローを自動化した体験が共有されました。
LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。