HN이 이 post를 흥미롭게 본 이유는 Apple Silicon unified memory가 Wasm sandbox와 GPU buffer 사이의 copy boundary를 실제로 줄일 수 있느냐는 구현 질문이었다.
#apple-silicon
RSS FeedHN은 아이디어의 야심에는 반응했지만 곧바로 약한 지점을 찔렀다. marketplace demand, MDM trust, Mac privacy claim, operator economics가 핵심이었다. Darkbloom은 idle Apple Silicon으로 OpenAI-compatible private inference를 더 싸게 제공할 수 있다고 말하지만, 댓글은 이를 landing page가 아니라 architecture와 incentive 문제로 읽었다.
LocalLLaMA에서는 Apple Silicon에서 Qwen3.5 추론을 4배 안팎까지 끌어올린 MLX용 DFlash 구현이, 과장된 demo가 아니라 baseline을 다시 잡고 open source로 공개한 engineering 작업이라는 점 때문에 주목받았다. 2026년 4월 13일 글 작성자는 stock MLX 기준으로 Qwen3.5-9B 2048 tokens에서 30.96 tok/s를 127.07 tok/s로 높였고 acceptance는 89.36%라고 공개했다.
r/LocalLLaMA의 새 글은 M5 Max와 MLX 0.31.1 환경에서 DFlash speculative decoding을 공개하고, Qwen3.5-9B에서 127.07 tok/s와 4.13x speedup을 보고했다. 중요한 점은 headline보다 재현 조건과 bandwidth bottleneck 해석이 구체적이라는 데 있다.
LocalLLaMA의 한 구현 보고는 Apple Silicon용 native MLX DFlash runtime으로 Qwen 계열 inference를 2배에서 3배 이상 가속했다고 주장한다. 중요한 점은 speedup뿐 아니라 greedy baseline과 bit-for-bit identical output을 유지했다고 설명한 부분이다.
LocalLLaMA에 공유된 Mac LLM Bench 결과는 32GB Apple Silicon 환경에서 MoE 모델이 dense 32B 계열보다 더 나은 latency-to-capability 균형을 보일 수 있음을 시사한다. 중요한 점은 숫자 하나보다 재현 가능한 benchmark workflow 자체다.
Show HN에 올라온 Parlor는 브라우저의 음성·카메라 입력을 Gemma 4 E2B와 Kokoro로 처리해 로컬에서 바로 음성 응답을 돌려준다. Apple M3 Pro 기준 2.5~3.0초 수준의 end-to-end latency를 공개한 점이 눈에 띈다.
LocalLLaMA의 데모 글은 Gemma 4 E2B와 Kokoro TTS를 이용해 음성·비전 대화를 전부 로컬에서 처리하는 Parlor를 소개했다. README 기준 Apple M3 Pro에서 end-to-end latency는 약 2.5~3.0초, decode speed는 약 83 tokens/sec다.
3월 31일 Hacker News 상위권에 오른 Ollama의 MLX 발표는 Apple Silicon에서 로컬 coding agent 성능을 높이려는 시도다. MLX, NVFP4, 그리고 개선된 cache 전략을 묶어 macOS 로컬 추론 병목을 줄이겠다는 내용이 핵심이다.
r/LocalLLaMA에서 공유된 새 실험은 Apple Neural Engine을 llama.cpp의 prefill 경로에 연결하려는 시도다. 공식 upstream 기능은 아니지만, M4 Pro 기준 CPU 대비 큰 폭의 가속 수치가 제시되며 커뮤니티의 관심을 끌었다.
Ollama가 2026년 3월 30일 Apple Silicon용 MLX 기반 preview를 공개했다. MLX, NVFP4, 개선된 cache를 결합해 prefill과 decode 성능을 모두 끌어올렸고, Hacker News에서도 큰 반응을 얻었다.
M5 Max 128GB에서 Qwen3.5-397B를 SSD streaming으로 20.34 tok/s까지 올린 실험 보고서가 r/LocalLLaMA에서 화제가 됐고, I/O 분산, temporal expert prediction, Q3-GGUF quantization이 핵심 개선점으로 제시됐다.