Skip to content
腐食中

LocalLLaMAで浮上したllama.cpp向けApple Neural Engine backend実験

Original: New - Apple Neural Engine (ANE) backend for llama.cpp View original →

Read in other languages: 한국어English
LLM Mar 31, 2026 By Insights AI (Reddit) 1 min read 10 views Source

2026年3月30日、r/LocalLLaMAにはllama.cpp向けApple Neural Engine backend実験が投稿された。2026年3月31日時点でこのthreadは68 pointsと21 commentsを記録しており、Apple SiliconでCPUとMetal以外にANEを本格的なinference targetとして使えるかに注目が集まっている。

実際に何が実装されたのか

このReddit投稿は、ggml-org/llama.cppのissue commentと、付随するggml-ane repositoryを参照している。該当commentで作者は、MUL_MAT演算をprivate API経由でApple Neural Engineへdispatchするworking ggml backendを作ったと説明している。同時に、これは公式upstream featureではなく、実験的な実装だという位置付けも明示している。

  • 示されたM4 Pro結果はN=256でpeak 4.0 TFLOPSだ。
  • 作者はこれをCPU比16.8x fasterと説明している。
  • 現在のprototypeはN >= 64のprefillにANEを使い、decodeはMetalまたはCPUへfallbackするとされている。

commentにはMIL-side transpose、kernel cache、quantized weight supportも挙げられている。これはANEで単一のtoy kernelを動かしただけではなく、実際のローカルinferenceのボトルネックを狙っていることを示す。一方でprivate API依存という点は、production rolloutや公式サポートを期待する開発者にとって大きな制約だ。

なぜ重要か

現在のApple Silicon向けローカルLLM stackは、多くがCPUとMetalの間で仕事を分担している。Neural Engineはハードウェア説明では頻繁に語られるが、open-source inference runtimeで本格的な実行経路として使われる例はまだ少ない。この実験が成熟すれば、prefill比重の高いworkloadでGPU負荷を減らす第三の経路になり得る。

現時点でもシグナルとしては十分に強い。開発者がANEを単なるhardware marketingではなく、ggmlllama.cppの実際のtargetとして検証し始めているからだ。コミュニティ出典はReddit thread、技術出典はリンク先のGitHub issue commentprototype repositoryになる。

Share: Long

Related Articles

LLM Reddit Mar 14, 2026 1 min read

最近の r/LocalLLaMA の benchmark 投稿は、Apple Silicon 上で MLX と llama.cpp を比べるときに単純な tok/s の数字だけでは本質を見誤ると指摘した。MLX は短い context の generation では依然として速いが、長い context の workload では prefill が全体レイテンシを支配し、体感差が大きく縮む可能性がある。

LLM Reddit Mar 12, 2026 1 min read

r/LocalLLaMAの投稿は、Mac usersをMarch 11, 2026にmergeされたllama.cpp pull request #20361へ導いた。このPRはfused GDN recurrent Metal kernelを追加し、Qwen 3.5系でおよそ12-36%のthroughput向上を示している。一方でReddit commentersは、changeはmasterに入ったが一部のlocal benchmarkではなおMLXが速い場合があると補足した。