LocalLLaMA에서는 Apple Silicon에서 Qwen3.5 추론을 4배 안팎까지 끌어올린 MLX용 DFlash 구현이, 과장된 demo가 아니라 baseline을 다시 잡고 open source로 공개한 engineering 작업이라는 점 때문에 주목받았다. 2026년 4월 13일 글 작성자는 stock MLX 기준으로 Qwen3.5-9B 2048 tokens에서 30.96 tok/s를 127.07 tok/s로 높였고 acceptance는 89.36%라고 공개했다.
#mlx
RSS Feedr/LocalLLaMA의 새 글은 M5 Max와 MLX 0.31.1 환경에서 DFlash speculative decoding을 공개하고, Qwen3.5-9B에서 127.07 tok/s와 4.13x speedup을 보고했다. 중요한 점은 headline보다 재현 조건과 bandwidth bottleneck 해석이 구체적이라는 데 있다.
LocalLLaMA의 한 구현 보고는 Apple Silicon용 native MLX DFlash runtime으로 Qwen 계열 inference를 2배에서 3배 이상 가속했다고 주장한다. 중요한 점은 speedup뿐 아니라 greedy baseline과 bit-for-bit identical output을 유지했다고 설명한 부분이다.
3월 31일 Hacker News 상위권에 오른 Ollama의 MLX 발표는 Apple Silicon에서 로컬 coding agent 성능을 높이려는 시도다. MLX, NVFP4, 그리고 개선된 cache 전략을 묶어 macOS 로컬 추론 병목을 줄이겠다는 내용이 핵심이다.
Ollama가 2026년 3월 30일 Apple Silicon용 MLX 기반 preview를 공개했다. MLX, NVFP4, 개선된 cache를 결합해 prefill과 decode 성능을 모두 끌어올렸고, Hacker News에서도 큰 반응을 얻었다.
r/LocalLLaMA에서 주목받은 March 28, 2026 게시물은 TurboQuant KV cache compression을 MLX와 custom Metal kernel에 이식한 구현 기록이다. 작성자는 Qwen2.5-32B on M4 Pro 48GB에서 4.6x compression과 0.98x FP16 speed를 주장했지만, repo README의 7B 수치는 더 보수적이어서 실제 이득이 model과 integration 방식에 크게 좌우된다는 점도 함께 드러난다.
r/LocalLLaMA의 rerun benchmark는 Apple M5 Max가 token generation보다 prompt processing에서 더 큰 이득을 보인다고 주장한다. 특히 Qwen 3.5 35B-A3B MoE는 2,845 tok/s PP512와 92.2 tok/s generation을 기록했다고 post author가 설명한다.
r/MachineLearning 프로젝트 글이 Apple의 MLX stack을 Unsloth 호환 API처럼 감싼 mlx-tune을 조명했다. Apple Silicon Mac에서 SFT, DPO, GRPO, LoRA, vision-language fine-tuning을 로컬로 실험하려는 개발자에게 맞춘 라이브러리다.
한 r/LocalLLaMA 실험 글은 model depth의 약 50~56% 부근에서 layer를 복제하면 성능이 무너지거나 output이 깨진다고 주장한다. Dense, hybrid, MoE, transplant 사례를 함께 비교했다는 점에서 단순 anecdote보다 한 단계 나아간다.
최근 r/LocalLLaMA에서 주목받은 글은 커뮤니티가 이미 400개가 넘는 모델에 대해 거의 1만 건에 이르는 Apple Silicon 벤치마크를 제출했다고 주장한다. 이 글이 중요한 이유는 흩어진 체감담을 넘어, M-series 칩과 context 길이별 패턴을 비교할 수 있는 공유 데이터셋이 생기기 시작했기 때문이다.
최근 r/LocalLLaMA 벤치마크 글은 Apple Silicon에서 MLX와 llama.cpp를 비교할 때 단순 tok/s 화면만 보면 중요한 차이를 놓칠 수 있다고 지적했다. MLX는 짧은 context의 generation에서는 여전히 빠르지만, 긴 context workload에서는 prefill이 전체 지연 시간을 지배해 체감 속도 우위가 크게 줄어들 수 있다.
r/LocalLLaMA의 실험 글은 Qwen 3.5 0.8B를 MacBook Air에서 test feedback loop와 LoRA로 돌려, 13개의 self-generated repair pair만으로 holdout slice를 16/50에서 28/50으로 끌어올렸다는 tinyforge 사례를 공유했다.