Ollama, Apple Silicon용 MLX preview 공개... 로컬 LLM 처리 속도 대폭 개선
Original: Ollama is now powered by MLX on Apple Silicon in preview View original →
2026년 3월 30일 Ollama는 Apple Silicon용 MLX 기반 preview를 공개했다. 2026년 3월 31일 기준 이 소식을 다룬 Hacker News 글은 226 points와 101 comments를 기록했고, macOS에서 로컬 LLM 성능을 어디까지 끌어올릴 수 있는지에 대한 관심이 빠르게 모였다.
무엇이 달라졌나
Ollama 발표에 따르면 새 preview는 Apple의 machine learning framework인 MLX와 unified memory architecture를 적극 활용한다. Ollama는 이를 통해 prefill과 decode를 모두 가속하고, M5, M5 Pro, M5 Max에서는 GPU Neural Accelerators까지 활용해 TTFT와 tokens per second를 높일 수 있다고 설명했다.
- Prefill은 Ollama 0.19에서 1810 tokens/s, Ollama 0.18에서는 1154 tokens/s였다.
- Decode는 112 tokens/s 대 58 tokens/s로 제시됐다.
- Ollama는 같은 환경에서
int4를 쓰면 1851 tokens/s prefill과 134 tokens/s decode까지 가능하다고 밝혔다.
벤치마크 조건도 중요하다. Ollama는 2026년 3월 29일 Alibaba의 Qwen3.5-35B-A3B를 NVFP4로 quantize한 구성으로 측정했고, 이전 구현은 Q4_K_M을 사용했다고 적었다. 즉 이번 변화는 단순히 backend를 바꾼 수준이 아니라, quantization 경로와 coding workload에 맞춘 전체 로컬 inference 경로를 함께 손본 결과에 가깝다.
왜 주목받나
Ollama는 이번 preview에서 NVFP4 지원도 전면에 내세웠다. 설명대로라면 memory bandwidth와 storage 부담을 낮추면서 production inference와 더 가까운 품질을 기대할 수 있다는 의미다. 여기에 conversation 간 cache 재사용, intelligent checkpoints, smarter eviction까지 추가해 agentic coding workload에서 체감 성능을 높이려는 방향이 분명하다.
32 GB 이상의 unified memory를 갖춘 Mac에서 Claude Code, OpenCode, Codex 같은 도구를 로컬로 돌리려는 개발자에게는 특히 의미가 크다. 원문은 Ollama blog post에서, 커뮤니티 반응은 Hacker News thread에서 확인할 수 있다.
Related Articles
3월 31일 Hacker News 상위권에 오른 Ollama의 MLX 발표는 Apple Silicon에서 로컬 coding agent 성능을 높이려는 시도다. MLX, NVFP4, 그리고 개선된 cache 전략을 묶어 macOS 로컬 추론 병목을 줄이겠다는 내용이 핵심이다.
높은 점수를 받은 LocalLLaMA 글은 16GB M1 Pro에서 Qwen 3.5 9B가 memory recall과 기본 tool calling을 실제 agent 작업에 쓸 만큼 처리했지만, creative reasoning은 여전히 frontier model보다 뒤처졌다고 전했다.
LocalLLaMA의 한 구현 보고는 Apple Silicon용 native MLX DFlash runtime으로 Qwen 계열 inference를 2배에서 3배 이상 가속했다고 주장한다. 중요한 점은 speedup뿐 아니라 greedy baseline과 bit-for-bit identical output을 유지했다고 설명한 부분이다.
Comments (0)
No comments yet. Be the first to comment!