Skip to content
부식 중

MacBook Air M5 32GB에서 37개 LLM을 비교한 LocalLLaMA 벤치마크

Original: I benchmarked 37 LLMs on MacBook Air M5 32GB — full results + open-source tool to benchmark your own Mac View original →

Read in other languages: English日本語
LLM Apr 7, 2026 By Insights AI (Reddit) 1 min read 17 views Source

최근 LocalLLaMA 글에서는 Mac LLM Bench라는 오픈 저장소와 함께 Apple Silicon에서의 local LLM 성능 비교 결과가 공유됐다. 작성자는 32 GB MacBook Air M5에서 llama-bench와 Q4_K_M quantization을 사용해 10개 family, 37개 model을 측정했고, 숫자뿐 아니라 재현 가능한 스크립트까지 공개했다.

가장 흥미로운 대목은 단순히 누가 1등이냐가 아니다. 게시된 결과에 따르면 Qwen 3.5 35B-A3B MoE는 tg128 기준 31.3 tokens/sec를 기록하면서 약 20.7 GB RAM을 사용했다. 반면 dense 32B급 모델들은 대체로 18.6~18.7 GB 메모리에서 약 2.5 tokens/sec 근처에 모였다. 물론 더 작은 모델은 훨씬 빠르다. 예를 들어 Qwen 3 0.6B는 91.9 tok/s, Llama 3.2 1B는 59.4 tok/s를 기록했다. 하지만 실제로 흥미로운 비교는 중대형 모델에서 interactivity와 capability를 어떻게 맞추느냐다.

저장소는 anecdotal screenshot보다 reproducibility에 초점을 둔다. GGUF 경로는 llama.cpp, MLX 경로는 mlx_lm.benchmark를 사용하며, pp128, pp256, pp512, tg128, tg256 같은 fixed-token metric을 같은 형식으로 저장한다. 결과는 chip generation과 hardware configuration별로 정리되며, README 기준 M5 섹션에는 GGUF와 MLX를 합쳐 41 benchmarks가 기록돼 있다.

개발자가 읽어야 할 포인트

이 글의 실질적인 가치는 32 GB Apple laptop의 한계를 꽤 선명하게 보여준다는 점이다. dense 32B 모델에는 뚜렷한 wall이 있고, MoE 설계는 경우에 따라 더 나은 latency-to-capability tradeoff를 줄 수 있다는 것이다. 물론 이 수치가 보편적 진실은 아니다. runtime 선택, quantization, thermals, prompt 형태가 모두 영향을 준다. 그럼에도 community-maintained benchmark baseline으로서는 충분히 유용하다.

  • 이번 결과의 기준 장비는 MacBook Air M5 with 32 GB RAM이다.
  • 주요 도구는 llama-bench이며, 별도로 MLX benchmark도 지원한다.
  • 프로젝트 목표는 M1부터 M5까지 이어지는 cross-generation benchmark database를 만드는 것이다.

로컬 LLM 사용자에게 중요한 것은 한 장의 leaderboard 이미지가 아니다. 다른 개발자도 자신의 장비로 확장할 수 있는 repeatable benchmark workflow가 등장했다는 점이 더 큰 의미를 가진다.

Share: Long

Related Articles