Apple Neural Engine 역설계로 Microgpt 훈련 성공
Original: Reverse engineered Apple Neural Engine(ANE) to train Microgpt View original →
왜 Apple Neural Engine인가?
Apple M4 칩의 Neural Engine(ANE)은 38 TFLOPS의 INT8 연산 능력(실제로는 FP16 프로세서이므로 절반인 약 19 TFLOPS)을 갖고 있다. 그러나 Apple은 ANE에 대한 공개 API를 제공하지 않는다. CoreML이 공식 권장 방법이지만, 이는 ANE를 직접 활용하기보다 우회하는 방식이다.
r/LocalLLaMA에서 457점을 기록한 이 프로젝트의 개발자는 Mac Mini M4를 구입하고 NPU의 컴퓨팅 파워를 직접 활용하고 싶었다. 그래서 Claude의 도움을 받아 ANE의 비공개 API를 역설계하기로 결정했다.
역설계 과정
개발자는 Claude를 활용해 ANE의 비공개 API를 분석하고, CoreML을 우회하여 ANE에 직접 접근하는 방법을 찾아냈다. 이후 맞춤형 훈련 파이프라인을 구축하여 110M 파라미터의 소형 Microgpt 모델을 훈련시키는 데 성공했다.
결과와 한계
- 성공: 단일 M4 ANE에서 110M Microgpt 모델 훈련 완료
- 한계: 단일 칩으로는 더 큰 모델 훈련에 실용적이지 않음
- 가능성: ANE 클러스터를 구성하면 더 큰 모델 훈련 이론적으로 가능. 단일 디바이스도 3B/7B 모델의 LoRA 훈련 가능
NPU 훈련의 장점
NPU는 GPU에 비해 전력 효율이 극히 높다. Apple Silicon의 ANE는 동일한 전력으로 GPU보다 훨씬 많은 행렬 곱셈을 처리할 수 있다. 이 프로젝트는 AI 훈련 환경을 민주화하는 잠재력을 보여준다 — 값비싼 NVIDIA GPU 없이도 MacBook이나 Mac Mini의 NPU로 모델을 훈련할 수 있는 미래를 향한 첫걸음이다.
Related Articles
OpenAI는 GPT-5.4 Thinking을 ChatGPT에, GPT-5.4를 API와 Codex에, GPT-5.4 Pro를 ChatGPT와 API에 배포하기 시작했다. reasoning, coding, native computer use를 최대 1M-token context와 함께 하나의 professional-work model로 묶었다는 점이 핵심이다.
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.
Comments (0)
No comments yet. Be the first to comment!