#dflash - Insights

LLM Reddit Apr 14, 2026 2 min read

Reddit, Apple Silicon에서 Qwen3.5 추론을 4배 안팎으로 끌어올린 DFlash MLX 구현에 주목

LocalLLaMA에서는 Apple Silicon에서 Qwen3.5 추론을 4배 안팎까지 끌어올린 MLX용 DFlash 구현이, 과장된 demo가 아니라 baseline을 다시 잡고 open source로 공개한 engineering 작업이라는 점 때문에 주목받았다. 2026년 4월 13일 글 작성자는 stock MLX 기준으로 Qwen3.5-9B 2048 tokens에서 30.96 tok/s를 127.07 tok/s로 높였고 acceptance는 89.36%라고 공개했다.

#dflash #speculative-decoding #mlx