MacBook Air M5 32GB에서 37개 LLM을 비교한 LocalLLaMA 벤치마크

최근 LocalLLaMA 글에서는 Mac LLM Bench라는 오픈 저장소와 함께 Apple Silicon에서의 local LLM 성능 비교 결과가 공유됐다. 작성자는 32 GB MacBook Air M5에서 llama-bench와 Q4_K_M quantization을 사용해 10개 family, 37개 model을 측정했고, 숫자뿐 아니라 재현 가능한 스크립트까지 공개했다.

가장 흥미로운 대목은 단순히 누가 1등이냐가 아니다. 게시된 결과에 따르면 Qwen 3.5 35B-A3B MoE는 tg128 기준 31.3 tokens/sec를 기록하면서 약 20.7 GB RAM을 사용했다. 반면 dense 32B급 모델들은 대체로 18.6~18.7 GB 메모리에서 약 2.5 tokens/sec 근처에 모였다. 물론 더 작은 모델은 훨씬 빠르다. 예를 들어 Qwen 3 0.6B는 91.9 tok/s, Llama 3.2 1B는 59.4 tok/s를 기록했다. 하지만 실제로 흥미로운 비교는 중대형 모델에서 interactivity와 capability를 어떻게 맞추느냐다.

저장소는 anecdotal screenshot보다 reproducibility에 초점을 둔다. GGUF 경로는 llama.cpp, MLX 경로는 mlx_lm.benchmark를 사용하며, pp128, pp256, pp512, tg128, tg256 같은 fixed-token metric을 같은 형식으로 저장한다. 결과는 chip generation과 hardware configuration별로 정리되며, README 기준 M5 섹션에는 GGUF와 MLX를 합쳐 41 benchmarks가 기록돼 있다.

개발자가 읽어야 할 포인트

이 글의 실질적인 가치는 32 GB Apple laptop의 한계를 꽤 선명하게 보여준다는 점이다. dense 32B 모델에는 뚜렷한 wall이 있고, MoE 설계는 경우에 따라 더 나은 latency-to-capability tradeoff를 줄 수 있다는 것이다. 물론 이 수치가 보편적 진실은 아니다. runtime 선택, quantization, thermals, prompt 형태가 모두 영향을 준다. 그럼에도 community-maintained benchmark baseline으로서는 충분히 유용하다.

이번 결과의 기준 장비는 MacBook Air M5 with 32 GB RAM이다.
주요 도구는 llama-bench이며, 별도로 MLX benchmark도 지원한다.
프로젝트 목표는 M1부터 M5까지 이어지는 cross-generation benchmark database를 만드는 것이다.

로컬 LLM 사용자에게 중요한 것은 한 장의 leaderboard 이미지가 아니다. 다른 개발자도 자신의 장비로 확장할 수 있는 repeatable benchmark workflow가 등장했다는 점이 더 큰 의미를 가진다.

MacBook Air M5 32GB에서 37개 LLM을 비교한 LocalLLaMA 벤치마크

개발자가 읽어야 할 포인트

Related Articles

Ollama, Apple Silicon용 MLX 기반 미리보기 공개

Ollama, Apple Silicon용 MLX preview 공개... 로컬 LLM 처리 속도 대폭 개선

LocalLLaMA에서 화제가 된 Qwen3.5 27B의 현실적인 성능 균형

Comments (0)

Leave a Comment

Related Articles

Ollama, Apple Silicon용 MLX 기반 미리보기 공개

Ollama, Apple Silicon용 MLX preview 공개... 로컬 LLM 처리 속도 대폭 개선
Ollama가 2026년 3월 30일 Apple Silicon용 MLX 기반 preview를 공개했다. MLX, NVFP4, 개선된 cache를 결합해 prefill과 decode 성능을 모두 끌어올렸고, Hacker News에서도 큰 반응을 얻었다.

LocalLLaMA에서 화제가 된 Qwen3.5 27B의 현실적인 성능 균형
LLM Reddit Mar 31, 2026 1 min read