Ollama, Apple Silicon용 MLX preview 공개... 로컬 LLM 처리 속도 대폭 개선
Original: Ollama is now powered by MLX on Apple Silicon in preview View original →
2026년 3월 30일 Ollama는 Apple Silicon용 MLX 기반 preview를 공개했다. 2026년 3월 31일 기준 이 소식을 다룬 Hacker News 글은 226 points와 101 comments를 기록했고, macOS에서 로컬 LLM 성능을 어디까지 끌어올릴 수 있는지에 대한 관심이 빠르게 모였다.
무엇이 달라졌나
Ollama 발표에 따르면 새 preview는 Apple의 machine learning framework인 MLX와 unified memory architecture를 적극 활용한다. Ollama는 이를 통해 prefill과 decode를 모두 가속하고, M5, M5 Pro, M5 Max에서는 GPU Neural Accelerators까지 활용해 TTFT와 tokens per second를 높일 수 있다고 설명했다.
- Prefill은 Ollama 0.19에서 1810 tokens/s, Ollama 0.18에서는 1154 tokens/s였다.
- Decode는 112 tokens/s 대 58 tokens/s로 제시됐다.
- Ollama는 같은 환경에서
int4를 쓰면 1851 tokens/s prefill과 134 tokens/s decode까지 가능하다고 밝혔다.
벤치마크 조건도 중요하다. Ollama는 2026년 3월 29일 Alibaba의 Qwen3.5-35B-A3B를 NVFP4로 quantize한 구성으로 측정했고, 이전 구현은 Q4_K_M을 사용했다고 적었다. 즉 이번 변화는 단순히 backend를 바꾼 수준이 아니라, quantization 경로와 coding workload에 맞춘 전체 로컬 inference 경로를 함께 손본 결과에 가깝다.
왜 주목받나
Ollama는 이번 preview에서 NVFP4 지원도 전면에 내세웠다. 설명대로라면 memory bandwidth와 storage 부담을 낮추면서 production inference와 더 가까운 품질을 기대할 수 있다는 의미다. 여기에 conversation 간 cache 재사용, intelligent checkpoints, smarter eviction까지 추가해 agentic coding workload에서 체감 성능을 높이려는 방향이 분명하다.
32 GB 이상의 unified memory를 갖춘 Mac에서 Claude Code, OpenCode, Codex 같은 도구를 로컬로 돌리려는 개발자에게는 특히 의미가 크다. 원문은 Ollama blog post에서, 커뮤니티 반응은 Hacker News thread에서 확인할 수 있다.
Related Articles
r/LocalLLaMA에서 주목받은 March 28, 2026 게시물은 TurboQuant KV cache compression을 MLX와 custom Metal kernel에 이식한 구현 기록이다. 작성자는 Qwen2.5-32B on M4 Pro 48GB에서 4.6x compression과 0.98x FP16 speed를 주장했지만, repo README의 7B 수치는 더 보수적이어서 실제 이득이 model과 integration 방식에 크게 좌우된다는 점도 함께 드러난다.
높은 점수를 받은 LocalLLaMA 글은 16GB M1 Pro에서 Qwen 3.5 9B가 memory recall과 기본 tool calling을 실제 agent 작업에 쓸 만큼 처리했지만, creative reasoning은 여전히 frontier model보다 뒤처졌다고 전했다.
Ollama는 2026년 3월 26일 VS Code가 GitHub Copilot을 통해 Ollama와 통합되어 로컬 또는 cloud Ollama models를 editor 안에서 직접 선택할 수 있다고 밝혔다. Ollama docs는 VS Code 1.113+, GitHub Copilot Chat 0.41.0+, Ollama v0.18.3+에서 GitHub Copilot Free만으로도 custom model selection이 가능하다고 설명한다.
Comments (0)
No comments yet. Be the first to comment!