Apple Neural Engine 역설계로 Microgpt 훈련 성공
Original: Reverse engineered Apple Neural Engine(ANE) to train Microgpt View original →
왜 Apple Neural Engine인가?
Apple M4 칩의 Neural Engine(ANE)은 38 TFLOPS의 INT8 연산 능력(실제로는 FP16 프로세서이므로 절반인 약 19 TFLOPS)을 갖고 있다. 그러나 Apple은 ANE에 대한 공개 API를 제공하지 않는다. CoreML이 공식 권장 방법이지만, 이는 ANE를 직접 활용하기보다 우회하는 방식이다.
r/LocalLLaMA에서 457점을 기록한 이 프로젝트의 개발자는 Mac Mini M4를 구입하고 NPU의 컴퓨팅 파워를 직접 활용하고 싶었다. 그래서 Claude의 도움을 받아 ANE의 비공개 API를 역설계하기로 결정했다.
역설계 과정
개발자는 Claude를 활용해 ANE의 비공개 API를 분석하고, CoreML을 우회하여 ANE에 직접 접근하는 방법을 찾아냈다. 이후 맞춤형 훈련 파이프라인을 구축하여 110M 파라미터의 소형 Microgpt 모델을 훈련시키는 데 성공했다.
결과와 한계
- 성공: 단일 M4 ANE에서 110M Microgpt 모델 훈련 완료
- 한계: 단일 칩으로는 더 큰 모델 훈련에 실용적이지 않음
- 가능성: ANE 클러스터를 구성하면 더 큰 모델 훈련 이론적으로 가능. 단일 디바이스도 3B/7B 모델의 LoRA 훈련 가능
NPU 훈련의 장점
NPU는 GPU에 비해 전력 효율이 극히 높다. Apple Silicon의 ANE는 동일한 전력으로 GPU보다 훨씬 많은 행렬 곱셈을 처리할 수 있다. 이 프로젝트는 AI 훈련 환경을 민주화하는 잠재력을 보여준다 — 값비싼 NVIDIA GPU 없이도 MacBook이나 Mac Mini의 NPU로 모델을 훈련할 수 있는 미래를 향한 첫걸음이다.
Related Articles
Apfel을 다룬 Show HN 글은 이번 2026년 4월 4일 크롤링에서 513 points와 117 comments를 기록했고, Apple의 on-device foundation model을 CLI, chat interface, OpenAI-compatible local server로 바꾸는 Swift 도구에 관심이 모였다.
Lemonade는 GPU·NPU를 겨냥한 OpenAI-compatible server로 local AI inference를 패키징해, everyday PC에서 open model 배포를 더 쉽게 하려는 스택이다.
HN은 Qwen3.6-27B를 벤치마크 승리보다 현실적으로 돌릴 수 있는 오픈 코딩 모델로 읽었다. 댓글도 점수표보다 메모리 요구량, self-hosting 가능성, dense 구조의 운영 단순성에 몰렸다.
Comments (0)
No comments yet. Be the first to comment!