MacBook Air M5 32GB에서 37개 LLM을 비교한 LocalLLaMA 벤치마크
Original: I benchmarked 37 LLMs on MacBook Air M5 32GB — full results + open-source tool to benchmark your own Mac View original →
최근 LocalLLaMA 글에서는 Mac LLM Bench라는 오픈 저장소와 함께 Apple Silicon에서의 local LLM 성능 비교 결과가 공유됐다. 작성자는 32 GB MacBook Air M5에서 llama-bench와 Q4_K_M quantization을 사용해 10개 family, 37개 model을 측정했고, 숫자뿐 아니라 재현 가능한 스크립트까지 공개했다.
가장 흥미로운 대목은 단순히 누가 1등이냐가 아니다. 게시된 결과에 따르면 Qwen 3.5 35B-A3B MoE는 tg128 기준 31.3 tokens/sec를 기록하면서 약 20.7 GB RAM을 사용했다. 반면 dense 32B급 모델들은 대체로 18.6~18.7 GB 메모리에서 약 2.5 tokens/sec 근처에 모였다. 물론 더 작은 모델은 훨씬 빠르다. 예를 들어 Qwen 3 0.6B는 91.9 tok/s, Llama 3.2 1B는 59.4 tok/s를 기록했다. 하지만 실제로 흥미로운 비교는 중대형 모델에서 interactivity와 capability를 어떻게 맞추느냐다.
저장소는 anecdotal screenshot보다 reproducibility에 초점을 둔다. GGUF 경로는 llama.cpp, MLX 경로는 mlx_lm.benchmark를 사용하며, pp128, pp256, pp512, tg128, tg256 같은 fixed-token metric을 같은 형식으로 저장한다. 결과는 chip generation과 hardware configuration별로 정리되며, README 기준 M5 섹션에는 GGUF와 MLX를 합쳐 41 benchmarks가 기록돼 있다.
개발자가 읽어야 할 포인트
이 글의 실질적인 가치는 32 GB Apple laptop의 한계를 꽤 선명하게 보여준다는 점이다. dense 32B 모델에는 뚜렷한 wall이 있고, MoE 설계는 경우에 따라 더 나은 latency-to-capability tradeoff를 줄 수 있다는 것이다. 물론 이 수치가 보편적 진실은 아니다. runtime 선택, quantization, thermals, prompt 형태가 모두 영향을 준다. 그럼에도 community-maintained benchmark baseline으로서는 충분히 유용하다.
- 이번 결과의 기준 장비는 MacBook Air M5 with 32 GB RAM이다.
- 주요 도구는
llama-bench이며, 별도로 MLX benchmark도 지원한다. - 프로젝트 목표는 M1부터 M5까지 이어지는 cross-generation benchmark database를 만드는 것이다.
로컬 LLM 사용자에게 중요한 것은 한 장의 leaderboard 이미지가 아니다. 다른 개발자도 자신의 장비로 확장할 수 있는 repeatable benchmark workflow가 등장했다는 점이 더 큰 의미를 가진다.
Related Articles
단종된 Intel Optane 영구 메모리를 중고 시장에서 구입해 768GB RAM 시스템을 구성하고, Kimi K2.5 1조 파라미터 모델을 로컬에서 초당 4토큰 이상으로 실행한 사례가 공개됐다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.