セキュリティ研究会社Cyeraが、Ollamaで認証なしにメモリを漏洩させられる深刻な脆弱性「Bleeding Llama」を発見した。ネットワーク公開している場合は即時パッチが必要だ。
#ollama
RSS FeedHNが強く反応したのは、wrapperの好き嫌いではなく、local LLM stackで誰がcreditとcontrolを握るのかという違和感だった。Sleeping Robotsの記事は、Ollamaがllama.cppの上で広がりながら attribution、model packaging、cloud routing、model storageで信頼を削ったと批判し、コメント欄では「それでもUXは強い」という反論も出た。
Redditが沸いたのは、また一台ハイエンドGPU機が出てきたからではなく、スマホをGemma 4サーバーに変えてしまったからだ。盛り上がりの中心はpeak benchmarkではなく、身近なhardwareでもlocal inferenceを回せるという手触りにあった。
Daniel VaughanのGemma 4検証は、local modelが本当にCodex CLIのagentとして使えるのかを、具体的な設定値と失敗パターンまで含めて示した。ポイントはApple SiliconではOllamaを避け、llama.cppと`--jinja`、KV cache quantization、`web_search = "disabled"`を組み合わせる必要があったことだ。
Apple Silicon の Mac mini で Ollama と Gemma 4 を運用する実践 gist が HN で注目された。投稿者は `gemma4:26b` が 24GB unified memory をほぼ使い切ると述べ、default 8B model と preload/keep-alive 設定を現実的な運用案として示した。
2026年3月31日にHacker Newsで上位に入ったOllamaのMLX発表は、Apple Siliconでのローカルcoding agent性能を押し上げる試みだ。MLX、NVFP4、改良されたcache戦略を組み合わせ、macOS上のローカル推論ボトルネックを減らすことを狙っている。
Ollamaが2026年3月30日にApple Silicon向けのMLX previewを公開した。MLX、NVFP4、改良されたcacheを組み合わせ、prefillとdecodeの両方を高速化したとしてHacker Newsでも注目を集めた。
Ollamaは2026年3月26日、VS CodeがGitHub Copilot経由でOllamaと統合され、localまたはcloudのOllama modelsをeditor内で直接選べるようになったと述べた。Ollama docsによれば、VS Code 1.113+、GitHub Copilot Chat 0.41.0+、Ollama v0.18.3+で、GitHub Copilot Freeだけでもcustom model selectionを有効にできる。
Andros Fenollosaの振り返りがHacker Newsで反応を集めたのは、production RAGをprompt demoではなくdataと運用の問題として描いたからだ。
Ollamaは2026年3月18日、MiniMax-M2.7をcloud経由で提供し、Claude CodeとOpenClawから起動できると発表した。Ollamaのライブラリページは、このモデルをcoding・agent workflow・professional productivity向けと位置づけ、SWE-Pro、VIBE-Pro、Terminal Bench 2、GDPval-AA、Toolathonの成績を示している。
Ollamaは2026年3月20日、NVIDIAのNemotron-Cascade-2を自社のlocal model stackで実行できるようになったと発表した。公式モデルページでは、3B activated parameterを使うopen 30B MoE modelとして紹介し、thinking・instructモードとOpenClaw・Codex・Claude向け導線を示している。
高スコアのLocalLLaMA投稿では、16GBのM1 Pro上でQwen 3.5 9Bがmemory recallと基本的なtool callingを実運用向けにこなしつつ、creative reasoningでは依然としてfrontier modelに及ばなかったと報告された。