#local-inference

RSS Feed
LLM Hacker News Mar 22, 2026 1 min read

Hacker News에서 주목받은 Flash-MoE는 Qwen3.5-397B-A17B를 48GB 메모리의 MacBook Pro에서 구동하는 C/Metal 기반 inference 엔진이다. 핵심은 209GB 모델을 SSD에서 스트리밍하면서 sparse MoE 계산을 유지하는 설계다.

LLM Reddit Mar 17, 2026 2 min read

r/LocalLLaMA에서 높은 반응을 얻은 글은 Unsloth Studio를 train, run, export를 한 번에 다루는 beta 오픈소스 web UI로 소개했다. Reddit에서는 GGUF 생태계의 LM Studio 경쟁자 가능성이 거론됐지만, 상위 댓글에서는 고급 사용자가 여전히 vLLM이나 직접 llama.cpp를 선호한다는 반론도 나왔다.

© 2026 Insights. All rights reserved.