r/LocalLLaMA 벤치마크: M5 Max는 MoE prompt processing에서 특히 강하다는 주장

Original: [Round 2 - Followup] M5 Max 128G Performance tests. I just got my new toy, and here's what it can do. (thank you for the feedback) View original →

Read in other languages: English日本語
LLM Mar 23, 2026 By Insights AI (Reddit) 2 min read 1 views Source

r/LocalLLaMA post는 Apple M5 Max 128GB machine에서 다시 측정한 LLM benchmark를 공유하며 104 points와 46 comments를 모았다. 게시 시각은 2026-03-22T13:04:04.000Z다. 작성자는 이전 v1 post에 달린 피드백을 반영해 methodology를 수정했고, llama-bench를 사용한 round 2 결과라고 설명한다. 따라서 이 story는 공식 벤더 benchmark가 아니라 community rerun benchmark라는 점이 출발점이다.

하드웨어 사양은 꽤 상세하다. post는 Apple M5 Max, 18-core CPU, 40-core Metal GPU, 128GB unified memory, 614 GB/s memory bandwidth, macOS 26.3.1, llama.cpp v8420, MLX v0.31.1을 적고 있다. 핵심 메시지는 token generation보다 prompt processing에서 M5 Max의 개선이 더 두드러진다는 주장이다. 작성자는 PP512 기준으로 Qwen 3.5 35B-A3B MoE가 2,845 tok/s, Qwen 3.5 122B-A10B MoE가 1,011 tok/s를 냈다고 보고한다.

generation 성능도 눈길을 끈다. 같은 post에 따르면 TG128 기준으로 35B-A3B MoE는 92.2 tok/s, 122B-A10B MoE는 41.5 tok/s, Qwen 3.5 27B Q4_K_M는 24.3 tok/s를 기록했다. MLX 4-bit Qwen 3.5 27B는 31.6 tok/s로 제시된다. 작성자는 v1에서 MLX가 llama.cpp보다 92% 빠르다고 적었던 비교가 unfair했다고 인정하고, equivalent 4-bit quantization 기준으로는 약 30% lead가 더 맞는 정정이라고 설명한다. 커뮤니티 benchmark에서 이런 self-correction이 포함된 점은 오히려 읽을 가치가 있다.

post가 특히 강조하는 것은 MoE behavior다. 35B-A3B MoE는 27B dense model보다 disk size가 약간 큰데도 PP와 TG 모두에서 훨씬 빠르다고 적혀 있다. 작성자는 unified memory 환경에서는 active experts만 읽으면 되기 때문에 Apple Silicon에서 MoE가 잘 맞는다고 해석한다. 실제로 PP8192에서 35B-A3B MoE 2,063 tok/s, 122B-A10B MoE 749 tok/s라는 수치는 dense model과 비교했을 때 상당히 공격적인 결과다.

물론 이 숫자를 independent lab measurement처럼 읽으면 안 된다. 측정 도구, quant choice, cold-start 조건, prompt 길이 설정, 모델 빌드 방식에 따라 결과는 달라질 수 있다. post 역시 all GGUF from bartowski, 일부 DeepSeek는 unsloth, full GPU offload와 flash attention 같은 조건을 함께 밝히고 있다. 다시 말해 이 benchmark는 구매 가이드의 최종 답이 아니라, community member가 공개한 fairly detailed data point에 가깝다.

그럼에도 이 thread가 의미 있는 이유는 Apple Silicon과 local LLM 실사용 사이의 질문을 꽤 구체적인 숫자로 끌어내렸기 때문이다. 특히 MoE model이 unified memory architecture에서 어떤 이점을 누릴 수 있는지, 그리고 MLX와 llama.cpp 비교를 어떤 quant level에서 해야 공정한지에 대해 실전적인 관찰을 제공한다. 관심 있는 사용자는 Reddit post를 직접 읽고, 자신의 workload와 inference stack에 맞춰 수치를 해석하는 편이 좋다.

Share: Long

Related Articles

LLM Reddit Mar 14, 2026 1 min read

최근 r/LocalLLaMA 벤치마크 글은 Apple Silicon에서 MLX와 llama.cpp를 비교할 때 단순 tok/s 화면만 보면 중요한 차이를 놓칠 수 있다고 지적했다. MLX는 짧은 context의 generation에서는 여전히 빠르지만, 긴 context workload에서는 prefill이 전체 지연 시간을 지배해 체감 속도 우위가 크게 줄어들 수 있다.

LLM Reddit Mar 14, 2026 1 min read

최근 r/LocalLLaMA에서 주목받은 글은 커뮤니티가 이미 400개가 넘는 모델에 대해 거의 1만 건에 이르는 Apple Silicon 벤치마크를 제출했다고 주장한다. 이 글이 중요한 이유는 흩어진 체감담을 넘어, M-series 칩과 context 길이별 패턴을 비교할 수 있는 공유 데이터셋이 생기기 시작했기 때문이다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.