Skip to content

#speculative-decoding

RSS Feed
LLM Reddit Apr 14, 2026 2 min read

LocalLLaMA에서는 Apple Silicon에서 Qwen3.5 추론을 4배 안팎까지 끌어올린 MLX용 DFlash 구현이, 과장된 demo가 아니라 baseline을 다시 잡고 open source로 공개한 engineering 작업이라는 점 때문에 주목받았다. 2026년 4월 13일 글 작성자는 stock MLX 기준으로 Qwen3.5-9B 2048 tokens에서 30.96 tok/s를 127.07 tok/s로 높였고 acceptance는 89.36%라고 공개했다.

LLM X/Twitter Apr 1, 2026 2 min read

Together Research는 2026년 3월 31일 live inference trace를 학습해 speculative draft model을 serving 중단 없이 비동기적으로 갱신하는 open-source framework Aurora를 공개했다. 회사의 블로그와 논문은 Aurora가 문제를 asynchronous RL로 재정의하며, traffic shift 상황에서 강한 static speculator 대비 1.25x 추가 속도 향상을 낼 수 있다고 설명한다.