MacBook Air M5에서 local coding LLM 21개 비교, LocalLLaMA가 원한 건 vibe 아닌 숫자
Original: I benchmarked 21 local LLMs on a MacBook Air M5 for code quality AND speed View original →
r/LocalLLaMA에 올라온 MacBook Air M5 benchmark는 커뮤니티가 좋아하는 “내 machine에서 실제로 돌려 본” 종류의 글이다. 작성자는 “bro trust me”식 coding model 추천을 줄이고 싶다며, 21개 local LLM을 동일 조건에서 HumanEval+ pass@1과 token speed, memory footprint로 비교했다. 공개 writeup, GitHub repo, Hugging Face dataset까지 붙인 점도 thread의 신뢰도를 올렸다.
가장 큰 숫자는 Qwen 3.6 35B-A3B다. 글에 따르면 이 MoE model은 HumanEval+ 89.6%, 16.9 tok/s, 20.1 GB로 1위를 차지했다. 작성자는 total parameter가 quality에, active parameter가 speed에 영향을 준다는 점에서 이 model이 균형을 잘 잡았다고 해석했다. Qwen 2.5 Coder 32B는 87.2%였지만 2.5 tok/s로 느렸고, Qwen 2.5 Coder 7B는 84.2%, 11.3 tok/s, 4.5 GB로 “best bang-for-RAM”에 가까운 결과를 냈다.
커뮤니티가 특히 물고 늘어진 부분은 Gemma 4의 낮은 점수다. Gemma 4 31B는 31.1%, Gemma 4 E4B는 14.6%, Gemma 4 26B-A4B MoE는 12.2%에 그쳤다. 작성자는 Q4_K_M quantization이 Gemma 4 architecture에 더 불리하게 작용했거나, HumanEval+ task distribution이 강점을 반영하지 못했을 수 있다고 적었다. 댓글에서는 Gemma 4 tool-calling problem, premature stop, llama.cpp fix 여부 같은 실무적 추측이 이어졌다.
이 thread의 가치는 leaderboard가 아니라 constraint-aware view에 있다. MacBook Air 같은 consumer device에서 speed와 RAM을 함께 봐야 daily coding assistant로 쓸 수 있는지 판단할 수 있다. Phi 4 Mini 3.8B가 70.7%, 19.6 tok/s, 2.5 GB로 sleeper pick처럼 보였다는 점도 같은 맥락이다.
원문은 Reddit discussion, 세부 writeup은 게시글에 연결된 Medium과 GitHub repo에서 볼 수 있다. LocalLLaMA가 이 글에 반응한 이유는 간단하다. local LLM 선택은 이제 “무엇이 가장 똑똑한가”보다 “내 hardware에서 충분히 맞고 빠른가”에 더 가까워지고 있다.
Related Articles
r/LocalLLaMA가 900점 넘게 반응한 이유는 Qwen3.6 score표가 아니라, local coding agent가 canvas bug와 wave completion issue를 스스로 찾아 고쳤다는 사용기였다.
LocalLLaMA가 이 글을 올려준 이유는 복잡한 GGUF 선택을 측정 가능한 tradeoff로 바꿨기 때문이다. 글은 community Qwen3.5-9B quant를 BF16 baseline과 mean KLD로 비교했고, 댓글은 chart 표현, Gemma 4, Thireus quant, long-context test까지 요구했다.
LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.
Comments (0)
No comments yet. Be the first to comment!