MacBook Air M5에서 local coding LLM 21개 비교, LocalLLaMA가 원한 건 vibe 아닌 숫자

r/LocalLLaMA에 올라온 MacBook Air M5 benchmark는 커뮤니티가 좋아하는 “내 machine에서 실제로 돌려 본” 종류의 글이다. 작성자는 “bro trust me”식 coding model 추천을 줄이고 싶다며, 21개 local LLM을 동일 조건에서 HumanEval+ pass@1과 token speed, memory footprint로 비교했다. 공개 writeup, GitHub repo, Hugging Face dataset까지 붙인 점도 thread의 신뢰도를 올렸다.

가장 큰 숫자는 Qwen 3.6 35B-A3B다. 글에 따르면 이 MoE model은 HumanEval+ 89.6%, 16.9 tok/s, 20.1 GB로 1위를 차지했다. 작성자는 total parameter가 quality에, active parameter가 speed에 영향을 준다는 점에서 이 model이 균형을 잘 잡았다고 해석했다. Qwen 2.5 Coder 32B는 87.2%였지만 2.5 tok/s로 느렸고, Qwen 2.5 Coder 7B는 84.2%, 11.3 tok/s, 4.5 GB로 “best bang-for-RAM”에 가까운 결과를 냈다.

커뮤니티가 특히 물고 늘어진 부분은 Gemma 4의 낮은 점수다. Gemma 4 31B는 31.1%, Gemma 4 E4B는 14.6%, Gemma 4 26B-A4B MoE는 12.2%에 그쳤다. 작성자는 Q4_K_M quantization이 Gemma 4 architecture에 더 불리하게 작용했거나, HumanEval+ task distribution이 강점을 반영하지 못했을 수 있다고 적었다. 댓글에서는 Gemma 4 tool-calling problem, premature stop, llama.cpp fix 여부 같은 실무적 추측이 이어졌다.

이 thread의 가치는 leaderboard가 아니라 constraint-aware view에 있다. MacBook Air 같은 consumer device에서 speed와 RAM을 함께 봐야 daily coding assistant로 쓸 수 있는지 판단할 수 있다. Phi 4 Mini 3.8B가 70.7%, 19.6 tok/s, 2.5 GB로 sleeper pick처럼 보였다는 점도 같은 맥락이다.

원문은 Reddit discussion, 세부 writeup은 게시글에 연결된 Medium과 GitHub repo에서 볼 수 있다. LocalLLaMA가 이 글에 반응한 이유는 간단하다. local LLM 선택은 이제 “무엇이 가장 똑똑한가”보다 “내 hardware에서 충분히 맞고 빠른가”에 더 가까워지고 있다.

MacBook Air M5에서 local coding LLM 21개 비교, LocalLLaMA가 원한 건 vibe 아닌 숫자

Related Articles

Qwen 3.6 vs Gemma 4, Pac-Man 한 판에서 갈린 local LLM 평가축

Qwen3.6 35B, 업무 방식을 바꾸다 — 스킬 기반 프롬프팅 실전 활용기

RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과

Related Articles

Qwen 3.6 vs Gemma 4, Pac-Man 한 판에서 갈린 local LLM 평가축
LLM Reddit May 1, 2026 1 min read

Qwen3.6 35B, 업무 방식을 바꾸다 — 스킬 기반 프롬프팅 실전 활용기
LLM Reddit May 22, 2026 1 min read

RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과
LLM Reddit May 22, 2026 1 min read