보안 연구업체 Cyera가 Ollama에서 인증 없이 메모리를 유출시킬 수 있는 심각한 취약점 '블리딩 라마(Bleeding Llama)'를 발견했다. 로컬 LLM을 서버로 운영하는 사용자는 즉시 패치가 필요하다.
#ollama
RSS FeedHN이 크게 반응한 이유는 한 wrapper의 호불호가 아니라, local LLM stack에서 누가 credit과 control을 가져가는지에 대한 불편함이었다. Sleeping Robots의 글은 Ollama가 llama.cpp 위에서 성장했지만 attribution, model packaging, cloud routing, model storage에서 사용자 신뢰를 깎았다고 주장했고, 댓글은 “그래도 UX는 압도적으로 쉽다”는 반론까지 붙었다.
Reddit이 크게 반응한 건 또 하나의 거대한 GPU 머신이 아니라, 스마트폰을 Gemma 4 서버로 바꿔버린 실전 해킹이었다. 이 정도가 진짜 우리가 보고 싶은 로컬 AI라는 반응이 나온 이유가 분명했다.
Daniel Vaughan의 Gemma 4 실험은 “local model도 Codex CLI에서 쓸 만한 agent가 될 수 있는가”를 실제 설정값과 실패 사례까지 포함해 검증했다. 핵심은 Apple Silicon에서 Ollama를 포기하고 llama.cpp와 `--jinja`, KV cache quantization, `web_search = "disabled"` 같은 세부 설정을 맞춰야 한다는 점이다.
HN에서 주목받은 gist는 Apple Silicon Mac mini에서 Ollama와 Gemma 4를 운영하는 실전 설정을 정리했다. 작성자는 `gemma4:26b`가 24GB unified memory를 거의 다 써 기본 8B 모델과 preload/keep-alive 설정이 더 현실적이라고 전했다.
3월 31일 Hacker News 상위권에 오른 Ollama의 MLX 발표는 Apple Silicon에서 로컬 coding agent 성능을 높이려는 시도다. MLX, NVFP4, 그리고 개선된 cache 전략을 묶어 macOS 로컬 추론 병목을 줄이겠다는 내용이 핵심이다.
Ollama가 2026년 3월 30일 Apple Silicon용 MLX 기반 preview를 공개했다. MLX, NVFP4, 개선된 cache를 결합해 prefill과 decode 성능을 모두 끌어올렸고, Hacker News에서도 큰 반응을 얻었다.
Ollama는 2026년 3월 26일 VS Code가 GitHub Copilot을 통해 Ollama와 통합되어 로컬 또는 cloud Ollama models를 editor 안에서 직접 선택할 수 있다고 밝혔다. Ollama docs는 VS Code 1.113+, GitHub Copilot Chat 0.41.0+, Ollama v0.18.3+에서 GitHub Copilot Free만으로도 custom model selection이 가능하다고 설명한다.
Andros Fenollosa의 회고가 Hacker News에서 반응을 얻은 이유는 production RAG를 prompt demo가 아니라 데이터와 운영 문제로 다뤘기 때문이다.
Ollama는 2026년 3월 18일 MiniMax-M2.7을 cloud 경로로 제공하며 Claude Code와 OpenClaw에서 바로 실행할 수 있다고 밝혔다. Ollama 라이브러리 페이지는 이 모델을 coding·agent workflow·professional productivity용 모델로 소개하며 SWE-Pro, VIBE-Pro, Terminal Bench 2, GDPval-AA, Toolathon 성적을 함께 제시한다.
Ollama는 2026년 3월 20일 NVIDIA의 Nemotron-Cascade-2를 자사 로컬 모델 스택에서 실행할 수 있다고 밝혔다. 공식 모델 페이지는 이를 3B activated parameter를 쓰는 open 30B MoE 모델로 소개하며, thinking·instruct 모드와 OpenClaw·Codex·Claude 연동 경로를 함께 제공한다.
높은 점수를 받은 LocalLLaMA 글은 16GB M1 Pro에서 Qwen 3.5 9B가 memory recall과 기본 tool calling을 실제 agent 작업에 쓸 만큼 처리했지만, creative reasoning은 여전히 frontier model보다 뒤처졌다고 전했다.