LLM Reddit Mar 31, 2026 1 min read
r/LocalLLaMA에서 공유된 새 실험은 Apple Neural Engine을 llama.cpp의 prefill 경로에 연결하려는 시도다. 공식 upstream 기능은 아니지만, M4 Pro 기준 CPU 대비 큰 폭의 가속 수치가 제시되며 커뮤니티의 관심을 끌었다.
r/LocalLLaMA에서 공유된 새 실험은 Apple Neural Engine을 llama.cpp의 prefill 경로에 연결하려는 시도다. 공식 upstream 기능은 아니지만, M4 Pro 기준 CPU 대비 큰 폭의 가속 수치가 제시되며 커뮤니티의 관심을 끌었다.
r/LocalLLaMA 고반응 글이 ggml.ai 팀의 Hugging Face 합류 소식을 확산시켰다. GitHub 공지는 ggml/llama.cpp의 full-time 유지보수 지속과 Local AI 생태계 확장을 핵심 메시지로 제시했다.
Hacker News 고득점 스레드는 ggml-org/llama.cpp 공지 #19759를 조명했다. ggml.ai 핵심 팀은 Hugging Face에 합류하지만, ggml/llama.cpp는 기존처럼 오픈소스·커뮤니티 중심으로 운영된다고 명시했다.
LocalLLaMA에서 주목받은 PR #19726은 ik_llama.cpp의 IQ*_K 계열 quantization 경로를 mainline llama.cpp로 포팅하는 초안으로, CPU backend 구현과 초기 KLD 비교를 함께 제시했다.