r/LocalLLaMA 벤치마크: M5 Max는 MoE prompt processing에서 특히 강하다는 주장
Original: [Round 2 - Followup] M5 Max 128G Performance tests. I just got my new toy, and here's what it can do. (thank you for the feedback) View original →
r/LocalLLaMA post는 Apple M5 Max 128GB machine에서 다시 측정한 LLM benchmark를 공유하며 104 points와 46 comments를 모았다. 게시 시각은 2026-03-22T13:04:04.000Z다. 작성자는 이전 v1 post에 달린 피드백을 반영해 methodology를 수정했고, llama-bench를 사용한 round 2 결과라고 설명한다. 따라서 이 story는 공식 벤더 benchmark가 아니라 community rerun benchmark라는 점이 출발점이다.
하드웨어 사양은 꽤 상세하다. post는 Apple M5 Max, 18-core CPU, 40-core Metal GPU, 128GB unified memory, 614 GB/s memory bandwidth, macOS 26.3.1, llama.cpp v8420, MLX v0.31.1을 적고 있다. 핵심 메시지는 token generation보다 prompt processing에서 M5 Max의 개선이 더 두드러진다는 주장이다. 작성자는 PP512 기준으로 Qwen 3.5 35B-A3B MoE가 2,845 tok/s, Qwen 3.5 122B-A10B MoE가 1,011 tok/s를 냈다고 보고한다.
generation 성능도 눈길을 끈다. 같은 post에 따르면 TG128 기준으로 35B-A3B MoE는 92.2 tok/s, 122B-A10B MoE는 41.5 tok/s, Qwen 3.5 27B Q4_K_M는 24.3 tok/s를 기록했다. MLX 4-bit Qwen 3.5 27B는 31.6 tok/s로 제시된다. 작성자는 v1에서 MLX가 llama.cpp보다 92% 빠르다고 적었던 비교가 unfair했다고 인정하고, equivalent 4-bit quantization 기준으로는 약 30% lead가 더 맞는 정정이라고 설명한다. 커뮤니티 benchmark에서 이런 self-correction이 포함된 점은 오히려 읽을 가치가 있다.
post가 특히 강조하는 것은 MoE behavior다. 35B-A3B MoE는 27B dense model보다 disk size가 약간 큰데도 PP와 TG 모두에서 훨씬 빠르다고 적혀 있다. 작성자는 unified memory 환경에서는 active experts만 읽으면 되기 때문에 Apple Silicon에서 MoE가 잘 맞는다고 해석한다. 실제로 PP8192에서 35B-A3B MoE 2,063 tok/s, 122B-A10B MoE 749 tok/s라는 수치는 dense model과 비교했을 때 상당히 공격적인 결과다.
물론 이 숫자를 independent lab measurement처럼 읽으면 안 된다. 측정 도구, quant choice, cold-start 조건, prompt 길이 설정, 모델 빌드 방식에 따라 결과는 달라질 수 있다. post 역시 all GGUF from bartowski, 일부 DeepSeek는 unsloth, full GPU offload와 flash attention 같은 조건을 함께 밝히고 있다. 다시 말해 이 benchmark는 구매 가이드의 최종 답이 아니라, community member가 공개한 fairly detailed data point에 가깝다.
그럼에도 이 thread가 의미 있는 이유는 Apple Silicon과 local LLM 실사용 사이의 질문을 꽤 구체적인 숫자로 끌어내렸기 때문이다. 특히 MoE model이 unified memory architecture에서 어떤 이점을 누릴 수 있는지, 그리고 MLX와 llama.cpp 비교를 어떤 quant level에서 해야 공정한지에 대해 실전적인 관찰을 제공한다. 관심 있는 사용자는 Reddit post를 직접 읽고, 자신의 workload와 inference stack에 맞춰 수치를 해석하는 편이 좋다.
Related Articles
최근 r/LocalLLaMA 벤치마크 글은 Apple Silicon에서 MLX와 llama.cpp를 비교할 때 단순 tok/s 화면만 보면 중요한 차이를 놓칠 수 있다고 지적했다. MLX는 짧은 context의 generation에서는 여전히 빠르지만, 긴 context workload에서는 prefill이 전체 지연 시간을 지배해 체감 속도 우위가 크게 줄어들 수 있다.
r/MachineLearning 프로젝트 글이 Apple의 MLX stack을 Unsloth 호환 API처럼 감싼 mlx-tune을 조명했다. Apple Silicon Mac에서 SFT, DPO, GRPO, LoRA, vision-language fine-tuning을 로컬로 실험하려는 개발자에게 맞춘 라이브러리다.
최근 r/LocalLLaMA에서 주목받은 글은 커뮤니티가 이미 400개가 넘는 모델에 대해 거의 1만 건에 이르는 Apple Silicon 벤치마크를 제출했다고 주장한다. 이 글이 중요한 이유는 흩어진 체감담을 넘어, M-series 칩과 context 길이별 패턴을 비교할 수 있는 공유 데이터셋이 생기기 시작했기 때문이다.
Comments (0)
No comments yet. Be the first to comment!