Ollama, Apple Silicon용 MLX preview 공개... 로컬 LLM 처리 속도 대폭 개선

2026년 3월 30일 Ollama는 Apple Silicon용 MLX 기반 preview를 공개했다. 2026년 3월 31일 기준 이 소식을 다룬 Hacker News 글은 226 points와 101 comments를 기록했고, macOS에서 로컬 LLM 성능을 어디까지 끌어올릴 수 있는지에 대한 관심이 빠르게 모였다.

무엇이 달라졌나

Ollama 발표에 따르면 새 preview는 Apple의 machine learning framework인 MLX와 unified memory architecture를 적극 활용한다. Ollama는 이를 통해 prefill과 decode를 모두 가속하고, M5, M5 Pro, M5 Max에서는 GPU Neural Accelerators까지 활용해 TTFT와 tokens per second를 높일 수 있다고 설명했다.

Prefill은 Ollama 0.19에서 1810 tokens/s, Ollama 0.18에서는 1154 tokens/s였다.
Decode는 112 tokens/s 대 58 tokens/s로 제시됐다.
Ollama는 같은 환경에서 int4를 쓰면 1851 tokens/s prefill과 134 tokens/s decode까지 가능하다고 밝혔다.

벤치마크 조건도 중요하다. Ollama는 2026년 3월 29일 Alibaba의 Qwen3.5-35B-A3B를 NVFP4로 quantize한 구성으로 측정했고, 이전 구현은 Q4_K_M을 사용했다고 적었다. 즉 이번 변화는 단순히 backend를 바꾼 수준이 아니라, quantization 경로와 coding workload에 맞춘 전체 로컬 inference 경로를 함께 손본 결과에 가깝다.

왜 주목받나

Ollama는 이번 preview에서 NVFP4 지원도 전면에 내세웠다. 설명대로라면 memory bandwidth와 storage 부담을 낮추면서 production inference와 더 가까운 품질을 기대할 수 있다는 의미다. 여기에 conversation 간 cache 재사용, intelligent checkpoints, smarter eviction까지 추가해 agentic coding workload에서 체감 성능을 높이려는 방향이 분명하다.

32 GB 이상의 unified memory를 갖춘 Mac에서 Claude Code, OpenCode, Codex 같은 도구를 로컬로 돌리려는 개발자에게는 특히 의미가 크다. 원문은 Ollama blog post에서, 커뮤니티 반응은 Hacker News thread에서 확인할 수 있다.

Ollama, Apple Silicon용 MLX preview 공개... 로컬 LLM 처리 속도 대폭 개선

무엇이 달라졌나

왜 주목받나

Related Articles

Ollama, Apple Silicon용 MLX 기반 미리보기 공개

r/LocalLLaMA, M1 Pro에서 Qwen 3.5 9B를 실제 로컬 agent로 시험하다

LocalLLaMA, Apple Silicon에서 DFlash로 Qwen 추론 2~3배 가속 보고

Comments (0)

Leave a Comment

Related Articles

Ollama, Apple Silicon용 MLX 기반 미리보기 공개
LLM Hacker News Apr 1, 2026 1 min read

r/LocalLLaMA, M1 Pro에서 Qwen 3.5 9B를 실제 로컬 agent로 시험하다
LLM Reddit Mar 10, 2026 2 min read

LocalLLaMA, Apple Silicon에서 DFlash로 Qwen 추론 2~3배 가속 보고
LLM Reddit Apr 11, 2026 2 min read