#apple-silicon

AI Hacker News Apr 20, 2026 1 min read

Wasm에서 GPU로 zero-copy inference, HN은 “어디서 빨라지나”를 물었다

HN이 이 post를 흥미롭게 본 이유는 Apple Silicon unified memory가 Wasm sandbox와 GPU buffer 사이의 copy boundary를 실제로 줄일 수 있느냐는 구현 질문이었다.

#wasm #gpu #inference

LLM Hacker News Apr 16, 2026 1 min read

Idle Mac으로 private inference? HN은 Darkbloom의 계산보다 신뢰 모델을 따졌다

HN은 아이디어의 야심에는 반응했지만 곧바로 약한 지점을 찔렀다. marketplace demand, MDM trust, Mac privacy claim, operator economics가 핵심이었다. Darkbloom은 idle Apple Silicon으로 OpenAI-compatible private inference를 더 싸게 제공할 수 있다고 말하지만, 댓글은 이를 landing page가 아니라 architecture와 incentive 문제로 읽었다.

#private-inference #apple-silicon #distributed-ai

LLM Reddit Apr 14, 2026 2 min read

Reddit, Apple Silicon에서 Qwen3.5 추론을 4배 안팎으로 끌어올린 DFlash MLX 구현에 주목

LocalLLaMA에서는 Apple Silicon에서 Qwen3.5 추론을 4배 안팎까지 끌어올린 MLX용 DFlash 구현이, 과장된 demo가 아니라 baseline을 다시 잡고 open source로 공개한 engineering 작업이라는 점 때문에 주목받았다. 2026년 4월 13일 글 작성자는 stock MLX 기준으로 Qwen3.5-9B 2048 tokens에서 30.96 tok/s를 127.07 tok/s로 높였고 acceptance는 89.36%라고 공개했다.

#dflash #speculative-decoding #mlx

LLM Reddit Apr 13, 2026 1 min read

r/LocalLLaMA가 추적한 Apple Silicon용 DFlash: MLX에서 lossless speculative decoding 4.1x

r/LocalLLaMA의 새 글은 M5 Max와 MLX 0.31.1 환경에서 DFlash speculative decoding을 공개하고, Qwen3.5-9B에서 127.07 tok/s와 4.13x speedup을 보고했다. 중요한 점은 headline보다 재현 조건과 bandwidth bottleneck 해석이 구체적이라는 데 있다.

#mlx #apple-silicon #speculative-decoding

LLM Reddit Apr 11, 2026 2 min read

LocalLLaMA, Apple Silicon에서 DFlash로 Qwen 추론 2~3배 가속 보고

LocalLLaMA의 한 구현 보고는 Apple Silicon용 native MLX DFlash runtime으로 Qwen 계열 inference를 2배에서 3배 이상 가속했다고 주장한다. 중요한 점은 speedup뿐 아니라 greedy baseline과 bit-for-bit identical output을 유지했다고 설명한 부분이다.

#apple-silicon #mlx #speculative-decoding

LLM Reddit Apr 7, 2026 1 min read

MacBook Air M5 32GB에서 37개 LLM을 비교한 LocalLLaMA 벤치마크

LocalLLaMA에 공유된 Mac LLM Bench 결과는 32GB Apple Silicon 환경에서 MoE 모델이 dense 32B 계열보다 더 나은 latency-to-capability 균형을 보일 수 있음을 시사한다. 중요한 점은 숫자 하나보다 재현 가능한 benchmark workflow 자체다.

#apple-silicon #benchmark #llama-cpp

AI Hacker News Apr 7, 2026 1 min read

Parlor, Apple Silicon에서 돌아가는 실시간 멀티모달 음성 AI Show HN

Show HN에 올라온 Parlor는 브라우저의 음성·카메라 입력을 Gemma 4 E2B와 Kokoro로 처리해 로컬에서 바로 음성 응답을 돌려준다. Apple M3 Pro 기준 2.5~3.0초 수준의 end-to-end latency를 공개한 점이 눈에 띈다.

#multimodal #on-device-ai #gemma

LLM Reddit Apr 6, 2026 2 min read

LocalLLaMA가 주목한 Parlor, Gemma 4 E2B로 구현한 실시간 로컬 음성·비전 assistant

LocalLLaMA의 데모 글은 Gemma 4 E2B와 Kokoro TTS를 이용해 음성·비전 대화를 전부 로컬에서 처리하는 Parlor를 소개했다. README 기준 Apple M3 Pro에서 end-to-end latency는 약 2.5~3.0초, decode speed는 약 83 tokens/sec다.

#llm #multimodal #edge-ai

LLM Hacker News Apr 1, 2026 1 min read

Ollama, Apple Silicon용 MLX 기반 미리보기 공개

3월 31일 Hacker News 상위권에 오른 Ollama의 MLX 발표는 Apple Silicon에서 로컬 coding agent 성능을 높이려는 시도다. MLX, NVFP4, 그리고 개선된 cache 전략을 묶어 macOS 로컬 추론 병목을 줄이겠다는 내용이 핵심이다.

#ollama #mlx #apple-silicon

LLM Reddit Mar 31, 2026 1 min read

LocalLLaMA에서 떠오른 llama.cpp용 Apple Neural Engine backend 실험

r/LocalLLaMA에서 공유된 새 실험은 Apple Neural Engine을 llama.cpp의 prefill 경로에 연결하려는 시도다. 공식 upstream 기능은 아니지만, M4 Pro 기준 CPU 대비 큰 폭의 가속 수치가 제시되며 커뮤니티의 관심을 끌었다.

#llama.cpp #apple-silicon #ane

LLM Hacker News Mar 31, 2026 1 min read

Ollama, Apple Silicon용 MLX preview 공개... 로컬 LLM 처리 속도 대폭 개선

Ollama가 2026년 3월 30일 Apple Silicon용 MLX 기반 preview를 공개했다. MLX, NVFP4, 개선된 cache를 결합해 prefill과 decode 성능을 모두 끌어올렸고, Hacker News에서도 큰 반응을 얻었다.

#ollama #mlx #apple-silicon

LLM Reddit Mar 30, 2026 1 min read

r/LocalLLaMA, M5 Max에서 Qwen3.5-397B를 20.34 tok/s까지 끌어올린 autoresearch 공개

M5 Max 128GB에서 Qwen3.5-397B를 SSD streaming으로 20.34 tok/s까지 올린 실험 보고서가 r/LocalLLaMA에서 화제가 됐고, I/O 분산, temporal expert prediction, Q3-GGUF quantization이 핵심 개선점으로 제시됐다.

#qwen #apple-silicon #inference