2026年3月31日にHacker Newsで上位に入ったOllamaのMLX発表は、Apple Siliconでのローカルcoding agent性能を押し上げる試みだ。MLX、NVFP4、改良されたcache戦略を組み合わせ、macOS上のローカル推論ボトルネックを減らすことを狙っている。
#local-llm
RSS Feedr/LocalLLaMAで共有されたSentrySearchは、Qwen3-VL-Embeddingを使ってraw videoを直接vector spaceへ写すローカル検索の流れを示した。transcriptionなしでtext queryとvideo clipを比較できる点がコミュニティの関心を集めた。
Ollamaが2026年3月30日にApple Silicon向けのMLX previewを公開した。MLX、NVFP4、改良されたcacheを組み合わせ、prefillとdecodeの両方を高速化したとしてHacker Newsでも注目を集めた。
r/LocalLLaMAのベンチマーク投稿では、RTX A6000 48GB、llama.cppのCUDA、32k contextという条件で、Qwen3.5 27Bが約19.7 tok/sを示し、サイズと性能のバランスが良いと評価された。
r/LocalLLaMAで、CPUにoffloadした重みを先読みしてprompt処理速度の低下を抑えるllama.cpp実験が話題になった。長いcontextでのhybrid CPU/GPU推論のボトルネックを減らす狙いだ。
2026年3月のr/LocalLLaMAで126 pointsと45 commentsを集めた投稿は、Qwen3.5-27Bをllama.cppで動かしOpenCodeへ接続する実践ガイドを取り上げた。注目点は、quant選択、chat-template修正、VRAM予算、Tailscale networking、tool-callingの挙動といった、実際のローカルcoding環境を左右する運用ディテールを扱っていることだ。
Hacker Newsで注目されたエッセイが、ChatGPT公開後40カ月を振り返りながら、Claude Codeの実用性、vibe codingの限界、local LLMの台頭をまとめた。
LocalLLaMAでこの話題が伸びたのは、IntelのGPUニュースを実際のlocal inferenceユーザーが見る指標、つまりVRAM、bandwidth、software support、costへ翻訳したからだ。
LocalLLaMAのpostは、Liquid AIのLFM2-24B-A2BがM4 Max browserで約50 tokens per secondと主張し、79 pointsと11 commentsを集めた。communityの関心はsparse MoE architecture、ONNX packaging、そしてWebGPUがlocal AI deployment targetをどこまで広げるかに向かった。
r/LocalLLaMAのllama.cpp比較投稿は55 upvotes、81 commentsを集めた。RTX 5090、DGX Spark、AMD AI395、singleとdual R9700を同一条件で比較し、local inference hardwareの現実的なtrade-offを可視化している。
r/LocalLLaMAではIntel Arc Pro B70/B65の話題が213 upvotes、133 commentsを集めた。IntelはB70を2026年3月25日から$949 starting priceで提供し、B65はmid-Aprilに投入するとしている。
Hacker NewsがEnteのEnsu発表を押し上げたのは、ローカルLLMソフトウェアをプライバシーと所有権のプロダクトとして捉えているからだ。主要プラットフォームでのオフラインチャット、オープンソースのコアロジック、計画中の暗号化同期が評価された。