MacBook Air M5에서 local coding LLM 21개 비교, LocalLLaMA가 원한 건 vibe 아닌 숫자
Original: I benchmarked 21 local LLMs on a MacBook Air M5 for code quality AND speed View original →
r/LocalLLaMA에 올라온 MacBook Air M5 benchmark는 커뮤니티가 좋아하는 “내 machine에서 실제로 돌려 본” 종류의 글이다. 작성자는 “bro trust me”식 coding model 추천을 줄이고 싶다며, 21개 local LLM을 동일 조건에서 HumanEval+ pass@1과 token speed, memory footprint로 비교했다. 공개 writeup, GitHub repo, Hugging Face dataset까지 붙인 점도 thread의 신뢰도를 올렸다.
가장 큰 숫자는 Qwen 3.6 35B-A3B다. 글에 따르면 이 MoE model은 HumanEval+ 89.6%, 16.9 tok/s, 20.1 GB로 1위를 차지했다. 작성자는 total parameter가 quality에, active parameter가 speed에 영향을 준다는 점에서 이 model이 균형을 잘 잡았다고 해석했다. Qwen 2.5 Coder 32B는 87.2%였지만 2.5 tok/s로 느렸고, Qwen 2.5 Coder 7B는 84.2%, 11.3 tok/s, 4.5 GB로 “best bang-for-RAM”에 가까운 결과를 냈다.
커뮤니티가 특히 물고 늘어진 부분은 Gemma 4의 낮은 점수다. Gemma 4 31B는 31.1%, Gemma 4 E4B는 14.6%, Gemma 4 26B-A4B MoE는 12.2%에 그쳤다. 작성자는 Q4_K_M quantization이 Gemma 4 architecture에 더 불리하게 작용했거나, HumanEval+ task distribution이 강점을 반영하지 못했을 수 있다고 적었다. 댓글에서는 Gemma 4 tool-calling problem, premature stop, llama.cpp fix 여부 같은 실무적 추측이 이어졌다.
이 thread의 가치는 leaderboard가 아니라 constraint-aware view에 있다. MacBook Air 같은 consumer device에서 speed와 RAM을 함께 봐야 daily coding assistant로 쓸 수 있는지 판단할 수 있다. Phi 4 Mini 3.8B가 70.7%, 19.6 tok/s, 2.5 GB로 sleeper pick처럼 보였다는 점도 같은 맥락이다.
원문은 Reddit discussion, 세부 writeup은 게시글에 연결된 Medium과 GitHub repo에서 볼 수 있다. LocalLLaMA가 이 글에 반응한 이유는 간단하다. local LLM 선택은 이제 “무엇이 가장 똑똑한가”보다 “내 hardware에서 충분히 맞고 빠른가”에 더 가까워지고 있다.
Related Articles
LocalLLaMA 댓글은 토큰 속도보다 끝까지 굴러가는 결과물에 더 민감했다. 같은 MacBook Pro M5 Max에서 Qwen 3.6 27B는 더 길고 빠르게 썼지만, Gemma 4 31B는 훨씬 적은 토큰으로 게임 로직과 상호작용을 먼저 정리했다.
LocalLLaMA에서 Qwen3.6 35B A3B 모델이 업무 워크플로우를 바꿨다는 경험담이 화제입니다. Codex로 작업을 수행하고 과정을 스킬 문서로 기록해 pi 에이전트에 공급하는 방식으로 VPS 관리, PDF 변환 등을 자동화했습니다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.