#ollama

LLM Reddit May 6, 2026 1 min read

Ollama에서 인증 없는 메모리 유출 취약점 '블리딩 라마' 발견

보안 연구업체 Cyera가 Ollama에서 인증 없이 메모리를 유출시킬 수 있는 심각한 취약점 '블리딩 라마(Bleeding Llama)'를 발견했다. 로컬 LLM을 서버로 운영하는 사용자는 즉시 패치가 필요하다.

LLM Hacker News Apr 16, 2026 1 min read

HN은 Ollama 논쟁을 로컬 LLM 신뢰 문제로 읽었다

HN이 크게 반응한 이유는 한 wrapper의 호불호가 아니라, local LLM stack에서 누가 credit과 control을 가져가는지에 대한 불편함이었다. Sleeping Robots의 글은 Ollama가 llama.cpp 위에서 성장했지만 attribution, model packaging, cloud routing, model storage에서 사용자 신뢰를 깎았다고 주장했고, 댓글은 “그래도 UX는 압도적으로 쉽다”는 반론까지 붙었다.

#local-llm #ollama #llama-cpp

LLM Reddit Apr 15, 2026 1 min read

48GB GPU 대신 샤오미 폰 한 대, Reddit이 꽂힌 헤드리스 Gemma 4 서버

Reddit이 크게 반응한 건 또 하나의 거대한 GPU 머신이 아니라, 스마트폰을 Gemma 4 서버로 바꿔버린 실전 해킹이었다. 이 정도가 진짜 우리가 보고 싶은 로컬 AI라는 반응이 나온 이유가 분명했다.

#local-llm #android #gemma

LLM Hacker News Apr 14, 2026 1 min read

Hacker News가 주목한 Gemma 4 local-agent 실전기: Codex CLI를 cloud 밖으로 옮기는 법

Daniel Vaughan의 Gemma 4 실험은 “local model도 Codex CLI에서 쓸 만한 agent가 될 수 있는가”를 실제 설정값과 실패 사례까지 포함해 검증했다. 핵심은 Apple Silicon에서 Ollama를 포기하고 llama.cpp와 `--jinja`, KV cache quantization, `web_search = "disabled"` 같은 세부 설정을 맞춰야 한다는 점이다.

#gemma-4 #codex-cli #local-llm

LLM Hacker News Apr 4, 2026 1 min read

HN에서 주목받은 Mac mini용 Ollama + Gemma 4 실전 설정

HN에서 주목받은 gist는 Apple Silicon Mac mini에서 Ollama와 Gemma 4를 운영하는 실전 설정을 정리했다. 작성자는 `gemma4:26b`가 24GB unified memory를 거의 다 써 기본 8B 모델과 preload/keep-alive 설정이 더 현실적이라고 전했다.

#ollama #gemma4 #mac-mini

LLM Hacker News Apr 1, 2026 1 min read

Ollama, Apple Silicon용 MLX 기반 미리보기 공개

3월 31일 Hacker News 상위권에 오른 Ollama의 MLX 발표는 Apple Silicon에서 로컬 coding agent 성능을 높이려는 시도다. MLX, NVFP4, 그리고 개선된 cache 전략을 묶어 macOS 로컬 추론 병목을 줄이겠다는 내용이 핵심이다.

#ollama #mlx #apple-silicon

LLM Hacker News Mar 31, 2026 1 min read

Ollama, Apple Silicon용 MLX preview 공개... 로컬 LLM 처리 속도 대폭 개선

Ollama가 2026년 3월 30일 Apple Silicon용 MLX 기반 preview를 공개했다. MLX, NVFP4, 개선된 cache를 결합해 prefill과 decode 성능을 모두 끌어올렸고, Hacker News에서도 큰 반응을 얻었다.

#ollama #mlx #apple-silicon

LLM X/Twitter Mar 27, 2026 1 min read

Ollama 모델, VS Code GitHub Copilot Chat 모델 선택기에서 직접 사용 가능

Ollama는 2026년 3월 26일 VS Code가 GitHub Copilot을 통해 Ollama와 통합되어 로컬 또는 cloud Ollama models를 editor 안에서 직접 선택할 수 있다고 밝혔다. Ollama docs는 VS Code 1.113+, GitHub Copilot Chat 0.41.0+, Ollama v0.18.3+에서 GitHub Copilot Free만으로도 custom model selection이 가능하다고 설명한다.

#ollama #github-copilot #vscode

LLM Hacker News Mar 27, 2026 1 min read

Hacker News가 다시 조명한 production RAG의 현실, local model로 451GB를 다루는 법

Andros Fenollosa의 회고가 Hacker News에서 반응을 얻은 이유는 production RAG를 prompt demo가 아니라 데이터와 운영 문제로 다뤘기 때문이다.

#rag #llamaindex #chromadb

LLM X/Twitter Mar 21, 2026 1 min read

Ollama, MiniMax-M2.7:cloud 제공… coding·agent workflow 겨냥

Ollama는 2026년 3월 18일 MiniMax-M2.7을 cloud 경로로 제공하며 Claude Code와 OpenClaw에서 바로 실행할 수 있다고 밝혔다. Ollama 라이브러리 페이지는 이 모델을 coding·agent workflow·professional productivity용 모델로 소개하며 SWE-Pro, VIBE-Pro, Terminal Bench 2, GDPval-AA, Toolathon 성적을 함께 제시한다.

#ollama #minimax #coding-models

LLM X/Twitter Mar 21, 2026 1 min read

Ollama, NVIDIA Nemotron-Cascade-2 공개… local·agent workflow용 30B MoE reasoning 모델 투입

Ollama는 2026년 3월 20일 NVIDIA의 Nemotron-Cascade-2를 자사 로컬 모델 스택에서 실행할 수 있다고 밝혔다. 공식 모델 페이지는 이를 3B activated parameter를 쓰는 open 30B MoE 모델로 소개하며, thinking·instruct 모드와 OpenClaw·Codex·Claude 연동 경로를 함께 제공한다.

#ollama #nvidia #nemotron-cascade-2

LLM Reddit Mar 10, 2026 2 min read

r/LocalLLaMA, M1 Pro에서 Qwen 3.5 9B를 실제 로컬 agent로 시험하다

높은 점수를 받은 LocalLLaMA 글은 16GB M1 Pro에서 Qwen 3.5 9B가 memory recall과 기본 tool calling을 실제 agent 작업에 쓸 만큼 처리했지만, creative reasoning은 여전히 frontier model보다 뒤처졌다고 전했다.

#qwen #local-llm #ollama