MacBook Air M5でlocal coding LLM 21個比較、LocalLLaMAが欲しかった実測値

r/LocalLLaMAに投稿されたMacBook Air M5 benchmarkは、このcommunityが好む「実際のconsumer hardwareで動かした」タイプの検証だ。投稿者は“bro trust me”式のcoding model recommendationを減らしたいとして、21個のlocal LLMを同じ条件でHumanEval+ pass@1、token speed、memory footprintで比較した。Medium writeup、GitHub repo、Hugging Face datasetも添えられている。

最大の数字はQwen 3.6 35B-A3Bである。投稿の表では、このMoE modelがHumanEval+ 89.6%、16.9 tok/s、20.1 GBで首位だった。投稿者は、total parameterがqualityに、active parameterがspeedに効くという意味で、このmodelがよいバランスを取っていると見ている。Qwen 2.5 Coder 32Bは87.2%と近いが2.5 tok/sと遅く、Qwen 2.5 Coder 7Bは84.2%、11.3 tok/s、4.5 GBでbest bang-for-RAMに近い結果だった。

コメント欄で議論になったのはGemma 4の低いscoreだ。Gemma 4 31Bは31.1%、Gemma 4 E4Bは14.6%、Gemma 4 26B-A4B MoEは12.2%にとどまった。投稿者はQ4_K_M quantizationがGemma 4 architectureに不利に働いている可能性や、HumanEval+のtask distributionが強みを反映していない可能性を挙げた。コメントでは、Gemma 4のtool-calling問題、tool call直前でのpremature stop、Googleやllama.cpp側のfixがどこまで効いているかという実務的な推測も出ていた。

この投稿の価値はleaderboardそのものではなく、constraint-awareな見方にある。MacBook Airのようなdeviceでは、speedとRAMを一緒に見なければdaily coding assistantとして使えるか判断できない。Phi 4 Mini 3.8Bが70.7%、19.6 tok/s、2.5 GBでsleeper pickのように見えた点も同じ文脈だ。

元の議論はReddit discussion、詳細は投稿内のMediumとGitHub repoで読める。LocalLLaMAが反応した理由ははっきりしている。local LLM選びは、どのmodelが一番賢いかだけでなく、自分のhardwareで十分に速く、十分に正確かという問題になっている。

LLM Reddit Apr 16, 2026 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

#local-llm #llama-cpp #moe

LLM Reddit 6d ago 1 min read

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

LocalLLaMAがこの投稿を評価したのは、複雑なGGUF選択を測れるtradeoffに変えたからだ。投稿はcommunity Qwen3.5-9B quantsをBF16 baselineに対するmean KLDで比較し、コメント欄はchart表現、Gemma 4、Thireus quants、long-context testingまで求めた。

#qwen #gguf #quantization

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMAが沸いた自動チューニング、Qwen3.5-27Bが40 tok/sへ

LocalLLaMAが反応したのは、「LLMが自分のruntimeを速くする」という冗談のような仕組みに、具体的なbenchmark数字が付いていたからだ。投稿者はllm-server v2の--ai-tuneがllama-server helpをcontextとして読み、flag組み合わせを試して最速configをcacheすると説明し、Qwen3.5-27B Q4_K_Mは18.5 tok/sから40.05 tok/sへ伸びたと共有した。

#local-llm #llama-cpp #optimization

MacBook Air M5でlocal coding LLM 21個比較、LocalLLaMAが欲しかった実測値

Related Articles

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

LocalLLaMAが沸いた自動チューニング、Qwen3.5-27Bが40 tok/sへ

Comments (0)

Leave a Comment