r/LocalLLaMA、共有 benchmark data が Apple Silicon local LLM 議論を測定可能にする
Original: Almost 10,000 Apple Silicon benchmark runs submitted by the community — here's what the data actually shows View original →
今週 r/LocalLLaMA で急速に注目を集めた投稿は、Mac 上の local LLM 性能の議論で繰り返されてきた問題に正面から取り組んでいる。スクリーンショットや個人の体感談は多いが、比較可能な benchmark data はほとんどない、という問題だ。投稿者は、LM Studio の benchmark submission 機能と open-source の oMLX アプリによって、その欠落がかなり埋まりつつあると主張する。投稿によれば、およそ2週間で Apple Silicon 環境から nearly 10,000 の benchmark run が集まり、対象 model も 400 以上に広がった。local inference の文脈で、これほどの規模で公開比較できるデータは珍しい。
投稿では、dataset が急速に大きくなった背景も説明されている。投稿者によれば oMLX は 3日で GitHub star 3.8k に達し、その後 benchmark submission が "flood" のように流れ込んだという。重要なのは run 数そのものより、hardware curve の形だ。たとえば M5 Max は Qwen 3.5 122B 4bit で 1k から 8k context にかけて約 1,200 PP tok/s を出し、16k でも 1,000 超を維持する。M3 Ultra は 1k context で約 893 PP tok/s から始まり、8k まで比較的安定する。一方で M4 Max は多くの context length で 500 台にとどまり、上位 chip とは明確に tier が分かれるというのが投稿のポイントだ。
この framing が重要なのは、投稿者が本当に面白い比較は 1k context の最高値ではなく、より長い context で chip 同士がどう交差するかだと見ているからだ。unified memory bandwidth、cache behavior、model size が長い prompt で異なる影響を与えるためだ。投稿は live comparison として omlx.ai/c/jmxd8a4 も提示しており、静的な chart よりも inspectable な議論になっている。コメントでは、community-submitted result をどう検証するか、128k を超える context ではどうなるか、同じ chip でも engine によって large prompt や concurrent workload の挙動がどう変わるか、といった次の論点がすぐに出てきた。
実務的には、この投稿は Apple Silicon local inference の議論を「なんとなく速い」から shared measurement culture へ押し進める価値がある。もちろん community benchmark には常に検証上の限界があり、この dataset も完璧ではない。それでも、hardware を選ぶ人や local coding workflow の成立性を考える人にとっては、断片的な tok/s 自慢よりも構造化された dataset の方がはるかに有用だ。Apple Silicon ベースの local LLM を真剣に検討しているなら、このスレッドは事実上の公開ベースラインになる可能性がある。
Related Articles
LocalLLaMAが熱くなった理由は絶対値の点数だけではない。2026年4月28日のこの投稿は、Qwen 3.6-27BのTerminal-Bench 2.0での38.2%をlate-2025 frontier相当と結びつけ、ローカルコーディングを導入判断の土俵に乗せた。
LocalLLaMAでは、この投稿が派手なspeed screenshotではなく、baselineを見直してから公開されたengineering workとして受け止められた。2026年4月13日の投稿では、stock MLX基準でQwen3.5-9Bの2048 tokens生成が30.96 tok/sから127.07 tok/sへ上がり、acceptanceは89.36%と報告された。
r/LocalLLaMAの新しい投稿は、M5 MaxとMLX 0.31.1上でのDFlash speculative decodingを公開し、Qwen3.5-9Bで127.07 tok/s、4.13xのspeedupを報告した。重要なのは派手な数字より、再現条件とbandwidth bottleneckの解釈が具体的な点だ。
Comments (0)
No comments yet. Be the first to comment!