r/LocalLLaMA가 추적한 Apple Silicon용 DFlash: MLX에서 lossless speculative decoding 4.1x

Original: DFlash speculative decoding on Apple Silicon: 4.1x on Qwen3.5-9B, now open source (MLX, M5 Max) View original →

Read in other languages: English日本語
LLM Apr 13, 2026 By Insights AI (Reddit) 1 min read 3 views Source

2026년 4월 14일 KST 초에 올라온 r/LocalLLaMA post는 Apple Silicon에서 돌아가는 native MLX 기반 DFlash 구현을 공개했다. 작성자는 작은 draft model이 16 tokens를 병렬로 생성하고, target model이 이를 한 번의 forward pass로 검증한 뒤 commit하는 구조라고 설명한다. 핵심은 lossless verification이며, forked runtime이 아니라 stock MLX 위에서 동작한다고 주장한다. 동시에 numerical issue를 수정했고 GitHub에 repository도 공개했다.

이 글의 장점은 headline speedup만 던지지 않는다는 점이다. benchmark 조건이 비교적 명확하다. 환경은 M5 Max, 64GB, MLX 0.31.1이고 baseline은 custom loop가 아니라 mlx_lm.stream_generate다. 측정은 3 runs의 median이며 run 사이에 10초 cooldown을 두었다. 2048 output tokens 기준 수치는 다음과 같다.

ModelBaselineDFlashSpeedupAcceptance
Qwen3.5-4B53.74 tok/s219.83 tok/s4.10x89.3%
Qwen3.5-9B30.96 tok/s127.07 tok/s4.13x89.4%
Qwen3.5-27B-4bit32.35 tok/s62.78 tok/s1.90x89.1%
Qwen3.5-35B-A3B-4bit142.12 tok/s240.21 tok/s1.69x88.7%

작성자의 해석도 유용하다. Apple Silicon의 unified memory에서는 compute보다 bandwidth가 병목이며, batched GEMV, fused gated SiLU, custom SDPA 같은 Metal kernel 실험은 stock MLX보다 느렸다고 한다. 즉 성능 향상의 주된 원인은 compute trick보다 numerical precision 선택이라는 주장이다. 또한 quantized target이 이미 빠른 경우에는 bf16 draft model이 새 bottleneck이 되기 때문에, Qwen3.5-27B-4bit에서 speedup이 1.90x로 낮아진다고 설명한다.

이 구현은 Qwen3.5의 hybrid GatedDeltaNet + attention architecture에 특히 맞춰졌고, pure attention 계열인 Qwen3나 Gemma도 돌아가지만 tape-replay 이점은 적다고 적었다. Local LLM 사용자 입장에서는 이 post가 speculative decoding을 marketing 문구가 아니라 engineering trade-off로 다룬다는 점이 중요하다. 재현 가능한 baseline, architecture fit, quantization, bandwidth ceiling을 함께 봐야 한다는 얘기다.

Share: Long

Related Articles

LLM Reddit 2d ago 2 min read

LocalLLaMA에서는 Apple Silicon에서 Qwen3.5 추론을 4배 안팎까지 끌어올린 MLX용 DFlash 구현이, 과장된 demo가 아니라 baseline을 다시 잡고 open source로 공개한 engineering 작업이라는 점 때문에 주목받았다. 2026년 4월 13일 글 작성자는 stock MLX 기준으로 Qwen3.5-9B 2048 tokens에서 30.96 tok/s를 127.07 tok/s로 높였고 acceptance는 89.36%라고 공개했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.