r/LocalLLaMA 벤치마크: M5 Max는 MoE prompt processing에서 특히 강하다는 주장

r/LocalLLaMA post는 Apple M5 Max 128GB machine에서 다시 측정한 LLM benchmark를 공유하며 104 points와 46 comments를 모았다. 게시 시각은 2026-03-22T13:04:04.000Z다. 작성자는 이전 v1 post에 달린 피드백을 반영해 methodology를 수정했고, llama-bench를 사용한 round 2 결과라고 설명한다. 따라서 이 story는 공식 벤더 benchmark가 아니라 community rerun benchmark라는 점이 출발점이다.

하드웨어 사양은 꽤 상세하다. post는 Apple M5 Max, 18-core CPU, 40-core Metal GPU, 128GB unified memory, 614 GB/s memory bandwidth, macOS 26.3.1, llama.cpp v8420, MLX v0.31.1을 적고 있다. 핵심 메시지는 token generation보다 prompt processing에서 M5 Max의 개선이 더 두드러진다는 주장이다. 작성자는 PP512 기준으로 Qwen 3.5 35B-A3B MoE가 2,845 tok/s, Qwen 3.5 122B-A10B MoE가 1,011 tok/s를 냈다고 보고한다.

generation 성능도 눈길을 끈다. 같은 post에 따르면 TG128 기준으로 35B-A3B MoE는 92.2 tok/s, 122B-A10B MoE는 41.5 tok/s, Qwen 3.5 27B Q4_K_M는 24.3 tok/s를 기록했다. MLX 4-bit Qwen 3.5 27B는 31.6 tok/s로 제시된다. 작성자는 v1에서 MLX가 llama.cpp보다 92% 빠르다고 적었던 비교가 unfair했다고 인정하고, equivalent 4-bit quantization 기준으로는 약 30% lead가 더 맞는 정정이라고 설명한다. 커뮤니티 benchmark에서 이런 self-correction이 포함된 점은 오히려 읽을 가치가 있다.

post가 특히 강조하는 것은 MoE behavior다. 35B-A3B MoE는 27B dense model보다 disk size가 약간 큰데도 PP와 TG 모두에서 훨씬 빠르다고 적혀 있다. 작성자는 unified memory 환경에서는 active experts만 읽으면 되기 때문에 Apple Silicon에서 MoE가 잘 맞는다고 해석한다. 실제로 PP8192에서 35B-A3B MoE 2,063 tok/s, 122B-A10B MoE 749 tok/s라는 수치는 dense model과 비교했을 때 상당히 공격적인 결과다.

물론 이 숫자를 independent lab measurement처럼 읽으면 안 된다. 측정 도구, quant choice, cold-start 조건, prompt 길이 설정, 모델 빌드 방식에 따라 결과는 달라질 수 있다. post 역시 all GGUF from bartowski, 일부 DeepSeek는 unsloth, full GPU offload와 flash attention 같은 조건을 함께 밝히고 있다. 다시 말해 이 benchmark는 구매 가이드의 최종 답이 아니라, community member가 공개한 fairly detailed data point에 가깝다.

그럼에도 이 thread가 의미 있는 이유는 Apple Silicon과 local LLM 실사용 사이의 질문을 꽤 구체적인 숫자로 끌어내렸기 때문이다. 특히 MoE model이 unified memory architecture에서 어떤 이점을 누릴 수 있는지, 그리고 MLX와 llama.cpp 비교를 어떤 quant level에서 해야 공정한지에 대해 실전적인 관찰을 제공한다. 관심 있는 사용자는 Reddit post를 직접 읽고, 자신의 workload와 inference stack에 맞춰 수치를 해석하는 편이 좋다.

r/LocalLLaMA 벤치마크: M5 Max는 MoE prompt processing에서 특히 강하다는 주장

Related Articles

r/LocalLLaMA: M1 Max에서 MLX와 llama.cpp의 실제 지연 시간 차이를 검증

r/LocalLLaMA: 커뮤니티 벤치마크 데이터가 Apple Silicon local LLM 성능 논의를 측정 가능한 형태로 바꾸다

SWE-bench 순위도 흔들린 25.7% 결함, 벤치마크 감사 도구 등장

Comments (0)

Leave a Comment

Related Articles

r/LocalLLaMA: M1 Max에서 MLX와 llama.cpp의 실제 지연 시간 차이를 검증
LLM Reddit Mar 14, 2026 1 min read

r/LocalLLaMA: 커뮤니티 벤치마크 데이터가 Apple Silicon local LLM 성능 논의를 측정 가능한 형태로 바꾸다
LLM Reddit Mar 14, 2026 1 min read

SWE-bench 순위도 흔들린 25.7% 결함, 벤치마크 감사 도구 등장
벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.