LocalLLaMAで浮上したllama.cpp向けApple Neural Engine backend実験
Original: New - Apple Neural Engine (ANE) backend for llama.cpp View original →
2026年3月30日、r/LocalLLaMAにはllama.cpp向けApple Neural Engine backend実験が投稿された。2026年3月31日時点でこのthreadは68 pointsと21 commentsを記録しており、Apple SiliconでCPUとMetal以外にANEを本格的なinference targetとして使えるかに注目が集まっている。
実際に何が実装されたのか
このReddit投稿は、ggml-org/llama.cppのissue commentと、付随するggml-ane repositoryを参照している。該当commentで作者は、MUL_MAT演算をprivate API経由でApple Neural Engineへdispatchするworking ggml backendを作ったと説明している。同時に、これは公式upstream featureではなく、実験的な実装だという位置付けも明示している。
- 示されたM4 Pro結果は
N=256でpeak 4.0 TFLOPSだ。 - 作者はこれをCPU比16.8x fasterと説明している。
- 現在のprototypeは
N >= 64のprefillにANEを使い、decodeはMetalまたはCPUへfallbackするとされている。
commentにはMIL-side transpose、kernel cache、quantized weight supportも挙げられている。これはANEで単一のtoy kernelを動かしただけではなく、実際のローカルinferenceのボトルネックを狙っていることを示す。一方でprivate API依存という点は、production rolloutや公式サポートを期待する開発者にとって大きな制約だ。
なぜ重要か
現在のApple Silicon向けローカルLLM stackは、多くがCPUとMetalの間で仕事を分担している。Neural Engineはハードウェア説明では頻繁に語られるが、open-source inference runtimeで本格的な実行経路として使われる例はまだ少ない。この実験が成熟すれば、prefill比重の高いworkloadでGPU負荷を減らす第三の経路になり得る。
現時点でもシグナルとしては十分に強い。開発者がANEを単なるhardware marketingではなく、ggmlとllama.cppの実際のtargetとして検証し始めているからだ。コミュニティ出典はReddit thread、技術出典はリンク先のGitHub issue commentとprototype repositoryになる。
Related Articles
最近の r/LocalLLaMA の benchmark 投稿は、Apple Silicon 上で MLX と llama.cpp を比べるときに単純な tok/s の数字だけでは本質を見誤ると指摘した。MLX は短い context の generation では依然として速いが、長い context の workload では prefill が全体レイテンシを支配し、体感差が大きく縮む可能性がある。
r/LocalLLaMAの投稿は、Mac usersをMarch 11, 2026にmergeされたllama.cpp pull request #20361へ導いた。このPRはfused GDN recurrent Metal kernelを追加し、Qwen 3.5系でおよそ12-36%のthroughput向上を示している。一方でReddit commentersは、changeはmasterに入ったが一部のlocal benchmarkではなおMLXが速い場合があると補足した。
r/LocalLLaMA に投稿された rerun benchmark は、Apple M5 Max の強みが token generation 単体より prompt processing にあると主張する。Qwen 3.5 35B-A3B MoE の 2,845 tok/s PP512 などの数値は community measurement であり、独立 lab benchmark ではない。