HNが強く反応したのは、wrapperの好き嫌いではなく、local LLM stackで誰がcreditとcontrolを握るのかという違和感だった。Sleeping Robotsの記事は、Ollamaがllama.cppの上で広がりながら attribution、model packaging、cloud routing、model storageで信頼を削ったと批判し、コメント欄では「それでもUXは強い」という反論も出た。
#local-llm
RSS FeedLocalLLaMA がこの話題に集まったのは、MiniMax が M2.7 ライセンス不安を静めようとしたからだ。ただ、スレッドの空気は「言い方が柔らかくなった」よりも、「self-hosted の商用利用が結局どこまで許されるのかはまだ曖昧だ」というものだった。
Redditが沸いたのは、また一台ハイエンドGPU機が出てきたからではなく、スマホをGemma 4サーバーに変えてしまったからだ。盛り上がりの中心はpeak benchmarkではなく、身近なhardwareでもlocal inferenceを回せるという手触りにあった。
Daniel VaughanのGemma 4検証は、local modelが本当にCodex CLIのagentとして使えるのかを、具体的な設定値と失敗パターンまで含めて示した。ポイントはApple SiliconではOllamaを避け、llama.cppと`--jinja`、KV cache quantization、`web_search = "disabled"`を組み合わせる必要があったことだ。
LocalLLaMA の高スコア post は、llama.cpp PR #21534 の merge によって Gemma 4 の current master support が実用的な安定域に入ったと見た。ただし焦点は fix そのものより tokenizer correctness、chat template、memory flag、そして CUDA 13.2 を避けるべきだという運用条件にあった。
LocalLLaMAの投稿は、最近の llama.cpp 修正により Gemma 4 GGUF を再取得する価値があると指摘し、ローカル推論利用者が見るべき変更点をまとめている。
r/LocalLLaMAのdebugging postは、Qwen 3.5のchat template問題がtool-heavy turn後のprefix-cache reuseを壊し、大きな無駄計算を生んでいる可能性があると主張している。
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
r/LocalLLaMA で広がった Unsloth の Gemma 4 ガイドは、Gemma-4-E2B と E4B を 8GB VRAM でローカル fine-tuning できると訴える。投稿では約 1.5 倍の training speed、FA2 比で約 60% 少ない VRAM、そして初期 Gemma 4 の training・inference bug fix を practical workflow としてまとめている。
約350ポイントを集めたLocalLLaMA投稿は、Gemma 4 26B A3Bが適切なruntime設定と組み合わさると、ローカルのcoding-agentやtool-calling workflowで非常に強く感じられると主張している。投稿者は他のローカルモデル環境で経験したprompt cachingやfunction callingの問題と対比して語っている。
LocalLLaMAで共有されたMac LLM Benchの結果は、32GBのApple Silicon環境ではdense 32B系よりMoEモデルのほうが良いlatency-to-capabilityのバランスを示す可能性があることを示した。重要なのは単一の順位表より、再現可能なbenchmark workflowそのものだ。
LocalLLaMAで話題になったこの実験では、stock iMac G3にKarpathyのTinyStories 260Kモデルを移植し、32 tokensを1秒未満で生成する。ポイントは大きなモデルではなく、classic Mac OS向けに徹底して組み直したsystems workにある。