LocalLLaMA의 관심은 속도 숫자보다 FP4, DFlash speculative decoding, commodity GPU 조합이 실제로 어디까지 재현될 수 있느냐에 모였다.
#speculative-decoding
RSS FeedOrthrus 프레임워크가 Qwen3 모델에서 forward pass당 최대 7.8배 토큰 생성 속도를 달성했다. 단일 KV 캐시로 자동회귀와 확산 뷰를 통합하는 이중 뷰 아키텍처 덕분에 출력 분포는 원본과 동일하다.
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
Google이 Gemma 4 모델군을 위한 Multi-Token Prediction(MTP) 드래프터를 공개했다. 추측적 디코딩 아키텍처를 통해 출력 품질 저하 없이 추론 속도를 최대 3배 높인다.
LocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.
LocalLLaMA에서는 Apple Silicon에서 Qwen3.5 추론을 4배 안팎까지 끌어올린 MLX용 DFlash 구현이, 과장된 demo가 아니라 baseline을 다시 잡고 open source로 공개한 engineering 작업이라는 점 때문에 주목받았다. 2026년 4월 13일 글 작성자는 stock MLX 기준으로 Qwen3.5-9B 2048 tokens에서 30.96 tok/s를 127.07 tok/s로 높였고 acceptance는 89.36%라고 공개했다.
r/LocalLLaMA의 새 글은 M5 Max와 MLX 0.31.1 환경에서 DFlash speculative decoding을 공개하고, Qwen3.5-9B에서 127.07 tok/s와 4.13x speedup을 보고했다. 중요한 점은 headline보다 재현 조건과 bandwidth bottleneck 해석이 구체적이라는 데 있다.
r/LocalLLaMA의 새 벤치마크는 Gemma 4 31B와 E2B draft 조합에서 speculative decoding이 평균 29%, code 생성에서는 약 50%의 속도 향상을 낼 수 있다고 전했다.
LocalLLaMA의 한 구현 보고는 Apple Silicon용 native MLX DFlash runtime으로 Qwen 계열 inference를 2배에서 3배 이상 가속했다고 주장한다. 중요한 점은 speedup뿐 아니라 greedy baseline과 bit-for-bit identical output을 유지했다고 설명한 부분이다.
LocalLLaMA 스레드는 speculative decoding용 block-diffusion draft model인 DFlash에 관심을 모았다. 논문은 6x 이상의 lossless acceleration과 vLLM, SGLang, 일부 Transformers backend 지원을 내세운다.
Together Research는 2026년 3월 31일 live inference trace를 학습해 speculative draft model을 serving 중단 없이 비동기적으로 갱신하는 open-source framework Aurora를 공개했다. 회사의 블로그와 논문은 Aurora가 문제를 asynchronous RL로 재정의하며, traffic shift 상황에서 강한 static speculator 대비 1.25x 추가 속도 향상을 낼 수 있다고 설명한다.
r/LocalLLaMA에서 주목받은 mlx-lm PR #990은 Qwen3.5의 built-in MTP head를 native speculative decoding에 활용해 15.3 -> 23.3 tok/s (~1.5x throughput boost), ~80.6% acceptance rate를 제시했다. 다만 converted checkpoint, batching 비활성화, MoE 미검증 같은 운영상 제약도 함께 확인해야 한다.