Idle Mac으로 private inference? HN은 Darkbloom의 계산보다 신뢰 모델을 따졌다
Original: Darkbloom – Private inference on idle Macs View original →
HN의 Darkbloom discussion은 decentralized AI compute pitch에 필요한 종류의 회의론을 보여줬다. Eigen Labs research preview인 Darkbloom은 idle Apple Silicon machine이 OpenAI-compatible API로 private inference를 처리하는 network를 설명한다. 사이트는 request가 사용자 device에서 먼저 암호화되고, coordinator가 routing하며, hardened process 안에서 decrypt되고, 응답은 해당 machine이 sign한다고 적고 있다.
매력은 분명하다. Darkbloom은 100 million개가 넘는 Apple Silicon machine이 하루 대부분 idle 상태로 있고, AI compute는 GPU vendor, hyperscaler, API provider, end user를 거치며 markup이 쌓인다고 본다. 이미 보유한 Mac이 안전하게 inference를 처리할 수 있다면, 사용자는 더 낮은 비용을 내고 hardware owner는 놀고 있는 machine에서 수익을 얻을 수 있다. 페이지는 centralized alternative 대비 up to 70% lower cost, workload에 따라 시간당 $0.01–0.03 수준의 electricity cost를 내세운다.
HN은 pitch에서 멈추지 않았다. 댓글은 revenue math부터 의심했다. Mac mini가 정말 짧은 기간에 본전을 뽑을 수 있다면, network가 직접 Mac을 사지 않는 이유는 무엇인가라는 질문이 나왔다. 실제로 software를 설치해 본 한 사용자는 짧은 테스트 동안 health check와 attestation은 있었지만 실제 inference request는 없었다고 적었고, 대화는 supply보다 demand를 어떻게 만들 것인지로 옮겨갔다. 또 다른 축은 operator trust였다. 평소 쓰는 machine에 management software를 설치하는 것이 안전한지에 대한 우려가 컸다.
가장 날카로운 부분은 privacy model이었다. 커뮤니티는 Apple Secure Enclave가 arbitrary code를 위한 SGX, TDX, SEV식 general-purpose enclave와 같지 않다는 점을 짚었다. 그래서 consumer Mac에서 verifiable private inference를 주장하려면 OS hardening, attestation, memory 접근 차단이 어디까지 가능한지 조심스럽게 읽어야 한다. 이 thread의 가치는 여기에 있다. Darkbloom은 idle local hardware를 AI infrastructure로 바꾸려는 흥미로운 시도지만, HN은 privacy와 attestation, marketplace bootstrapping이 실제 product라고 보았다.
Related Articles
LocalLLaMA의 데모 글은 Gemma 4 E2B와 Kokoro TTS를 이용해 음성·비전 대화를 전부 로컬에서 처리하는 Parlor를 소개했다. README 기준 Apple M3 Pro에서 end-to-end latency는 약 2.5~3.0초, decode speed는 약 83 tokens/sec다.
Hacker News에서 주목받은 Flash-MoE는 SSD 스트리밍과 Metal 커널을 이용해 Qwen3.5-397B-A17B를 48GB M3 Max 노트북에서 대화 가능한 속도로 실행하는 방법을 공개했다.
r/LocalLLaMA의 새 글은 M5 Max와 MLX 0.31.1 환경에서 DFlash speculative decoding을 공개하고, Qwen3.5-9B에서 127.07 tok/s와 4.13x speedup을 보고했다. 중요한 점은 headline보다 재현 조건과 bandwidth bottleneck 해석이 구체적이라는 데 있다.
Comments (0)
No comments yet. Be the first to comment!