#mlx

LLM Reddit Apr 14, 2026 1 min read

Reddit、Apple SiliconでQwen3.5を4倍級に高速化するDFlash実装に注目

LocalLLaMAでは、この投稿が派手なspeed screenshotではなく、baselineを見直してから公開されたengineering workとして受け止められた。2026年4月13日の投稿では、stock MLX基準でQwen3.5-9Bの2048 tokens生成が30.96 tok/sから127.07 tok/sへ上がり、acceptanceは89.36%と報告された。

#dflash #speculative-decoding #mlx

LLM Reddit Apr 13, 2026 1 min read

r/LocalLLaMAが追うApple Silicon向けDFlash: MLXでlossless speculative decodingを4.1x

r/LocalLLaMAの新しい投稿は、M5 MaxとMLX 0.31.1上でのDFlash speculative decodingを公開し、Qwen3.5-9Bで127.07 tok/s、4.13xのspeedupを報告した。重要なのは派手な数字より、再現条件とbandwidth bottleneckの解釈が具体的な点だ。

#mlx #apple-silicon #speculative-decoding

LLM Reddit Apr 11, 2026 1 min read

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告

LocalLLaMAの実装報告は、Apple Silicon向けnative MLX DFlash runtimeがQwen系inferenceを複数条件で2倍から3倍以上高速化すると主張する。注目点はspeedupだけでなく、greedy baselineとbit-for-bit identical outputを維持したと説明しているところだ。

#apple-silicon #mlx #speculative-decoding

LLM Hacker News Apr 1, 2026 1 min read

Ollama、Apple Silicon向けMLXベース実装をプレビュー公開

2026年3月31日にHacker Newsで上位に入ったOllamaのMLX発表は、Apple Siliconでのローカルcoding agent性能を押し上げる試みだ。MLX、NVFP4、改良されたcache戦略を組み合わせ、macOS上のローカル推論ボトルネックを減らすことを狙っている。

#ollama #mlx #apple-silicon

LLM Hacker News Mar 31, 2026 1 min read

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化

Ollamaが2026年3月30日にApple Silicon向けのMLX previewを公開した。MLX、NVFP4、改良されたcacheを組み合わせ、prefillとdecodeの両方を高速化したとしてHacker Newsでも注目を集めた。

#ollama #mlx #apple-silicon

LLM Reddit Mar 28, 2026 1 min read

r/LocalLLaMA が追った TurboQuant on MLX、KV cache compression が FP16 speed に迫る

March 28, 2026 の r/LocalLLaMA 投稿は、TurboQuant の KV cache compression を MLX と custom Metal kernel に持ち込んだ実装記録として注目を集めた。投稿者は Qwen2.5-32B on M4 Pro 48GB で 4.6x compression と 0.98x FP16 speed を示したが、repo README の 7B 数値はより保守的で、実益が model と integration detail に強く依存することも見えている。

#mlx #kv-cache #metal

LLM Reddit Mar 23, 2026 1 min read

r/LocalLLaMA benchmark、M5 Max は MoE の prompt processing で特に強いという主張

r/LocalLLaMA に投稿された rerun benchmark は、Apple M5 Max の強みが token generation 単体より prompt processing にあると主張する。Qwen 3.5 35B-A3B MoE の 2,845 tok/s PP512 などの数値は community measurement であり、独立 lab benchmark ではない。

#apple-silicon #llama.cpp #mlx

LLM Reddit Mar 18, 2026 1 min read

r/MachineLearningで話題の mlx-tune、Apple Silicon で Unsloth 風 API の LLM fine-tuning を実現

r/MachineLearning の project post が、Apple の MLX stack を Unsloth 互換に近い API で包む mlx-tune を紹介した。Apple Silicon Mac 上で SFT、DPO、GRPO、LoRA、vision-language fine-tuning を試したい開発者向けの実用的な bridge だ。

#apple-silicon #mlx #fine-tuning

LLM Reddit Mar 18, 2026 1 min read

r/LocalLLaMAが追ったtransformerの“danger zone”、layer duplicationが効く場所と壊れる場所

r/LocalLLaMAの実験投稿は、model depthの約50〜56%付近でlayerを複製すると性能低下やoutput崩壊が起きると主張する。Dense、hybrid、MoE、transplantをまとめて比べている点で、単なる anecdote より一歩踏み込んでいる。

#transformers #model-surgery #localllama

LLM Reddit Mar 14, 2026 1 min read

r/LocalLLaMA、共有 benchmark data が Apple Silicon local LLM 議論を測定可能にする

最近の r/LocalLLaMA で注目された投稿は、コミュニティがすでに 400 以上の model について約 1万件の Apple Silicon benchmark を提出したと述べている。重要なのは、散発的な体感談ではなく、M-series chip と context length ごとの傾向を比較できる shared dataset が立ち上がり始めた点だ。

#apple-silicon #benchmarks #omlx

LLM Reddit Mar 14, 2026 1 min read

r/LocalLLaMA、M1 Maxでの MLX と llama.cpp の実効レイテンシ差を検証

最近の r/LocalLLaMA の benchmark 投稿は、Apple Silicon 上で MLX と llama.cpp を比べるときに単純な tok/s の数字だけでは本質を見誤ると指摘した。MLX は短い context の generation では依然として速いが、長い context の workload では prefill が全体レイテンシを支配し、体感差が大きく縮む可能性がある。

#mlx #llama.cpp #apple-silicon

LLM Reddit Mar 11, 2026 1 min read

r/LocalLLaMAが注目したtinyforge、0.8Bモデルのローカルself-improvement

r/LocalLLaMAの実験投稿は、MacBook Air上のQwen 3.5 0.8Bをtest feedback loopとLoRAで回し、13個のself-generated repair pairだけでholdout sliceを16/50から28/50へ押し上げたというtinyforgeの事例を共有した。

#small-models #self-improvement #local-training