#apple-silicon

AI Hacker News Apr 20, 2026 1 min read

WasmからGPUへのzero-copy inference、HNは速度差の実体を問うた

HNがこのpostを面白がった理由は、Apple Silicon unified memoryでWasm sandboxとGPU bufferが本当に同じbytesを扱えるのかという実装上の境界だった。

LLM Hacker News Apr 16, 2026 1 min read

idle Macでprivate inference、HNはDarkbloomの収益より信頼モデルを見た

HNは構想の大きさに反応しつつ、すぐに弱点へ向かった。marketplace demand、MDM trust、Mac privacy claim、operator economicsが論点だった。Darkbloomはidle Apple SiliconでOpenAI-compatible private inferenceを安く出せると語るが、コメント欄はそれをlanding pageではなくarchitectureとincentiveの問題として読んだ。

#private-inference #apple-silicon #distributed-ai

LLM Reddit Apr 14, 2026 1 min read

Reddit、Apple SiliconでQwen3.5を4倍級に高速化するDFlash実装に注目

LocalLLaMAでは、この投稿が派手なspeed screenshotではなく、baselineを見直してから公開されたengineering workとして受け止められた。2026年4月13日の投稿では、stock MLX基準でQwen3.5-9Bの2048 tokens生成が30.96 tok/sから127.07 tok/sへ上がり、acceptanceは89.36%と報告された。

#dflash #speculative-decoding #mlx

LLM Reddit Apr 13, 2026 1 min read

r/LocalLLaMAが追うApple Silicon向けDFlash: MLXでlossless speculative decodingを4.1x

r/LocalLLaMAの新しい投稿は、M5 MaxとMLX 0.31.1上でのDFlash speculative decodingを公開し、Qwen3.5-9Bで127.07 tok/s、4.13xのspeedupを報告した。重要なのは派手な数字より、再現条件とbandwidth bottleneckの解釈が具体的な点だ。

#mlx #apple-silicon #speculative-decoding

LLM Reddit Apr 11, 2026 1 min read

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告

LocalLLaMAの実装報告は、Apple Silicon向けnative MLX DFlash runtimeがQwen系inferenceを複数条件で2倍から3倍以上高速化すると主張する。注目点はspeedupだけでなく、greedy baselineとbit-for-bit identical outputを維持したと説明しているところだ。

#apple-silicon #mlx #speculative-decoding

LLM Reddit Apr 7, 2026 1 min read

32GBのMacBook Air M5で37個のLLMを比較したLocalLLaMAベンチマーク

LocalLLaMAで共有されたMac LLM Benchの結果は、32GBのApple Silicon環境ではdense 32B系よりMoEモデルのほうが良いlatency-to-capabilityのバランスを示す可能性があることを示した。重要なのは単一の順位表より、再現可能なbenchmark workflowそのものだ。

#apple-silicon #benchmark #llama-cpp

AI Hacker News Apr 7, 2026 1 min read

Parlor、Apple Siliconで動くリアルタイム音声マルチモーダルAIをShow HNで公開

Show HNに投稿されたParlorは、ブラウザの音声とカメラ入力をGemma 4 E2BとKokoroで処理し、ローカルで音声応答まで完結させる。Apple M3 Proで約2.5〜3.0秒のend-to-end latencyを示している点が印象的だ。

#multimodal #on-device-ai #gemma

LLM Reddit Apr 6, 2026 1 min read

Reddit が注目した Parlor、Gemma 4 E2B で動くリアルタイムのローカル音声・視覚 assistant

LocalLLaMA のデモ投稿は、Gemma 4 E2B で speech と vision を理解し、Kokoro で text-to-speech を行う Parlor を紹介した。README では Apple M3 Pro 上で end-to-end latency 約 2.5-3.0 秒、decode speed 約 83 tokens/sec とされている。

#llm #multimodal #edge-ai

LLM Hacker News Apr 1, 2026 1 min read

Ollama、Apple Silicon向けMLXベース実装をプレビュー公開

2026年3月31日にHacker Newsで上位に入ったOllamaのMLX発表は、Apple Siliconでのローカルcoding agent性能を押し上げる試みだ。MLX、NVFP4、改良されたcache戦略を組み合わせ、macOS上のローカル推論ボトルネックを減らすことを狙っている。

#ollama #mlx #apple-silicon

LLM Reddit Mar 31, 2026 1 min read

LocalLLaMAで浮上したllama.cpp向けApple Neural Engine backend実験

r/LocalLLaMAで共有された新しい実験は、Apple Neural Engineをllama.cppのprefill経路へつなぐ試みだ。公式upstream機能ではないが、M4 ProでCPU比の大きな加速値が示され、コミュニティの関心を集めた。

#llama.cpp #apple-silicon #ane

LLM Hacker News Mar 31, 2026 1 min read

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化

Ollamaが2026年3月30日にApple Silicon向けのMLX previewを公開した。MLX、NVFP4、改良されたcacheを組み合わせ、prefillとdecodeの両方を高速化したとしてHacker Newsでも注目を集めた。