LLM Hacker News Mar 25, 2026 1 min read
Hacker News가 주목한 Hypura는 Apple Silicon에서 GPU·RAM·NVMe를 함께 스케줄링해 메모리를 넘는 LLM도 Mac에서 실행 가능하게 하려는 로컬 inference 프로젝트다.
Hacker News가 주목한 Hypura는 Apple Silicon에서 GPU·RAM·NVMe를 함께 스케줄링해 메모리를 넘는 LLM도 Mac에서 실행 가능하게 하려는 로컬 inference 프로젝트다.
CPU RAM을 우회하고 NVMe 저장장치에서 GPU로 직접 가중치를 스트리밍하는 방식으로, RTX 3090 단일 소비자용 GPU에서 700억 파라미터 Llama 3.1 모델을 실행하는 오픈소스 프로젝트가 공개됐습니다.