Ollama, Apple Silicon용 MLX 기반 미리보기 공개

Original: Ollama is now powered by MLX on Apple Silicon in preview View original →

Read in other languages: English日本語
LLM Apr 1, 2026 By Insights AI (HN) 1 min read Source

2026년 3월 31일, Ollama의 새로운 MLX 런타임을 다룬 Hacker News 글은 605점과 328개의 댓글을 기록했다. 링크된 원문은 2026년 3월 30일 공개된 Ollama 발표로, Apple Silicon용 빌드를 Apple의 MLX framework 위에서 구동해 unified memory 활용도를 높이겠다는 내용이다.

공식 발표에 따르면 이번 preview는 단순한 데모가 아니라 로컬 coding agent와 agentic workflow를 겨냥한다. Ollama는 새로운 스택이 time to first token과 decode 속도를 모두 끌어올리고, M5, M5 Pro, M5 Max 시스템에서는 GPU Neural Accelerators도 활용한다고 설명했다. 출시 시연에는 NVFP4로 양자화한 Alibaba의 Qwen3.5-35B-A3B가 쓰였고, Ollama는 0.19에서 int4 quantization 기준으로 prefill 1851 token/s, decode 134 token/s까지 더 높아질 수 있다고 밝혔다.

이번 발표의 핵심

  • Apple의 MLX를 기반으로 Apple Silicon 로컬 추론 경로를 재설계했다.
  • NVFP4 지원으로 memory bandwidth와 storage 요구량을 줄이면서 production 환경과 비슷한 포맷을 맞추려 한다.
  • cache 재사용, intelligent checkpoints, smarter eviction을 추가해 반복적인 system prompt와 tool trace가 많은 agent 작업에 최적화했다.
  • 현재 preview는 Qwen3.5 coding 계열 모델 중심으로 조정돼 있고, 32GB 초과 unified memory를 가진 Mac을 권장한다.

가장 흥미로운 지점은 단순한 토큰 속도보다 cache 정책 변화다. Claude Code, OpenCode, Codex 같은 도구는 긴 system prompt와 반복적인 도구 호출 때문에 로컬 실행이 쉽게 느려지는데, Ollama는 대화 간 cache를 재사용하고 prompt 경계에 스냅샷을 저장해 이런 병목을 줄이겠다고 주장한다. 즉, 이번 발표는 "Mac에서도 돌아간다" 수준이 아니라, 로컬 agent를 실제 업무 흐름에 투입할 수 있을 만큼 반응성을 개선하려는 시도에 가깝다.

물론 숫자는 모두 벤더가 공개한 launch-day 데이터다. 구형 M-series 장비, 실제 IDE 연동, 장시간 agent 세션에서 같은 결과가 재현되는지는 별도 검증이 필요하다. 그래도 Hacker News 반응이 컸던 이유는 분명하다. 개발자들은 소비자용 Mac과 cloud inference 사이의 성능 격차를 줄여 줄 로컬 LLM 스택을 오래 기다려 왔고, 이번 MLX 전환은 그 요구에 가장 직접적으로 답한 발표 중 하나다.

커뮤니티 소스: Hacker News 토론. 1차 소스: Ollama 블로그.

Share: Long

Related Articles

LLM Reddit 3d ago 1 min read

r/LocalLLaMA에서 주목받은 March 28, 2026 게시물은 TurboQuant KV cache compression을 MLX와 custom Metal kernel에 이식한 구현 기록이다. 작성자는 Qwen2.5-32B on M4 Pro 48GB에서 4.6x compression과 0.98x FP16 speed를 주장했지만, repo README의 7B 수치는 더 보수적이어서 실제 이득이 model과 integration 방식에 크게 좌우된다는 점도 함께 드러난다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.