MacBook Air M5에서 local coding LLM 21개 비교, LocalLLaMA가 원한 건 vibe 아닌 숫자

Original: I benchmarked 21 local LLMs on a MacBook Air M5 for code quality AND speed View original →

Read in other languages: English日本語
LLM Apr 23, 2026 By Insights AI (Reddit) 1 min read 1 views Source

r/LocalLLaMA에 올라온 MacBook Air M5 benchmark는 커뮤니티가 좋아하는 “내 machine에서 실제로 돌려 본” 종류의 글이다. 작성자는 “bro trust me”식 coding model 추천을 줄이고 싶다며, 21개 local LLM을 동일 조건에서 HumanEval+ pass@1과 token speed, memory footprint로 비교했다. 공개 writeup, GitHub repo, Hugging Face dataset까지 붙인 점도 thread의 신뢰도를 올렸다.

가장 큰 숫자는 Qwen 3.6 35B-A3B다. 글에 따르면 이 MoE model은 HumanEval+ 89.6%, 16.9 tok/s, 20.1 GB로 1위를 차지했다. 작성자는 total parameter가 quality에, active parameter가 speed에 영향을 준다는 점에서 이 model이 균형을 잘 잡았다고 해석했다. Qwen 2.5 Coder 32B는 87.2%였지만 2.5 tok/s로 느렸고, Qwen 2.5 Coder 7B는 84.2%, 11.3 tok/s, 4.5 GB로 “best bang-for-RAM”에 가까운 결과를 냈다.

커뮤니티가 특히 물고 늘어진 부분은 Gemma 4의 낮은 점수다. Gemma 4 31B는 31.1%, Gemma 4 E4B는 14.6%, Gemma 4 26B-A4B MoE는 12.2%에 그쳤다. 작성자는 Q4_K_M quantization이 Gemma 4 architecture에 더 불리하게 작용했거나, HumanEval+ task distribution이 강점을 반영하지 못했을 수 있다고 적었다. 댓글에서는 Gemma 4 tool-calling problem, premature stop, llama.cpp fix 여부 같은 실무적 추측이 이어졌다.

이 thread의 가치는 leaderboard가 아니라 constraint-aware view에 있다. MacBook Air 같은 consumer device에서 speed와 RAM을 함께 봐야 daily coding assistant로 쓸 수 있는지 판단할 수 있다. Phi 4 Mini 3.8B가 70.7%, 19.6 tok/s, 2.5 GB로 sleeper pick처럼 보였다는 점도 같은 맥락이다.

원문은 Reddit discussion, 세부 writeup은 게시글에 연결된 Medium과 GitHub repo에서 볼 수 있다. LocalLLaMA가 이 글에 반응한 이유는 간단하다. local LLM 선택은 이제 “무엇이 가장 똑똑한가”보다 “내 hardware에서 충분히 맞고 빠른가”에 더 가까워지고 있다.

Share: Long

Related Articles

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.