#local-llm

LLM Hacker News Apr 1, 2026 1 min read

Ollama、Apple Silicon向けMLXベース実装をプレビュー公開

2026年3月31日にHacker Newsで上位に入ったOllamaのMLX発表は、Apple Siliconでのローカルcoding agent性能を押し上げる試みだ。MLX、NVFP4、改良されたcache戦略を組み合わせ、macOS上のローカル推論ボトルネックを減らすことを狙っている。

#ollama #mlx #apple-silicon

LLM Reddit Mar 31, 2026 1 min read

LocalLLaMAで注目のSentrySearch Qwen3-VLによるローカルvideo semantic search

r/LocalLLaMAで共有されたSentrySearchは、Qwen3-VL-Embeddingを使ってraw videoを直接vector spaceへ写すローカル検索の流れを示した。transcriptionなしでtext queryとvideo clipを比較できる点がコミュニティの関心を集めた。

#qwen3-vl #video-search #chromadb

LLM Hacker News Mar 31, 2026 1 min read

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化

Ollamaが2026年3月30日にApple Silicon向けのMLX previewを公開した。MLX、NVFP4、改良されたcacheを組み合わせ、prefillとdecodeの両方を高速化したとしてHacker Newsでも注目を集めた。

#ollama #mlx #apple-silicon

LLM Reddit Mar 31, 2026 1 min read

LocalLLaMAで議論を呼んだ Qwen3.5 27B の現実的な性能バランス

r/LocalLLaMAのベンチマーク投稿では、RTX A6000 48GB、llama.cppのCUDA、32k contextという条件で、Qwen3.5 27Bが約19.7 tok/sを示し、サイズと性能のバランスが良いと評価された。

#qwen3.5 #local-llm #benchmarks

LLM Reddit Mar 31, 2026 1 min read

LocalLLaMAで注目を集めた llama.cpp のCPU offload prefetch実験

r/LocalLLaMAで、CPUにoffloadした重みを先読みしてprompt処理速度の低下を抑えるllama.cpp実験が話題になった。長いcontextでのhybrid CPU/GPU推論のボトルネックを減らす狙いだ。

#llama.cpp #local-llm #inference

LLM Reddit Mar 30, 2026 1 min read

r/LocalLLaMA、Qwen3.5-27Bをllama.cppとOpenCodeへつなぐ実践構成に注目

2026年3月のr/LocalLLaMAで126 pointsと45 commentsを集めた投稿は、Qwen3.5-27Bをllama.cppで動かしOpenCodeへ接続する実践ガイドを取り上げた。注目点は、quant選択、chat-template修正、VRAM予算、Tailscale networking、tool-callingの挙動といった、実際のローカルcoding環境を左右する運用ディテールを扱っていることだ。

#qwen #llama-cpp #opencode

AI Hacker News Mar 29, 2026 1 min read

Hacker Newsが見た「AI時代の最初の40カ月」、Claude Codeとlocal LLMの現実

Hacker Newsで注目されたエッセイが、ChatGPT公開後40カ月を振り返りながら、Claude Codeの実用性、vibe codingの限界、local LLMの台頭をまとめた。

#ai #claude-code #developer-tools

LLM Reddit Mar 27, 2026 1 min read

Intel Arc Pro B70、32GB local inferenceの新しいsub-$1,000基準になるか

LocalLLaMAでこの話題が伸びたのは、IntelのGPUニュースを実際のlocal inferenceユーザーが見る指標、つまりVRAM、bandwidth、software support、costへ翻訳したからだ。

#intel #gpu #vram

LLM Reddit Mar 26, 2026 1 min read

Liquid AIのブラウザ推論デモをLocalLLaMAが注目した理由

LocalLLaMAのpostは、Liquid AIのLFM2-24B-A2BがM4 Max browserで約50 tokens per secondと主張し、79 pointsと11 commentsを集めた。communityの関心はsparse MoE architecture、ONNX packaging、そしてWebGPUがlocal AI deployment targetをどこまで広げるかに向かった。

#liquid-ai #webgpu #onnx

LLM Reddit Mar 26, 2026 1 min read

LocalLLaMAベンチマークが示したRTX 5090、AI395、dual R9700の勝ち筋

r/LocalLLaMAのllama.cpp比較投稿は55 upvotes、81 commentsを集めた。RTX 5090、DGX Spark、AMD AI395、singleとdual R9700を同一条件で比較し、local inference hardwareの現実的なtrade-offを可視化している。

#llama.cpp #benchmark #local-llm

LLM Reddit Mar 26, 2026 1 min read