Flash-MoE: 노트북에서 397B 파라미터 모델 실행

Hacker News 스레드는 크롤링 시점 기준 194점과 68개 댓글을 기록했다. 링크된 프로젝트는 Flash-MoE로, 작성자는 48GB unified memory를 갖춘 MacBook Pro M3 Max에서 Qwen3.5-397B-A17B를 4.4+ tokens/second로 실행할 수 있다고 설명한다. 문서상 목표는 단순 데모가 아니라 tool calling까지 가능한 production-quality output이다.

가장 눈에 띄는 대목은 메모리 전략이다. README에 따르면 전체 모델은 209GB 규모지만, 이를 RAM에 상주시키는 대신 SSD에서 필요한 expert만 읽어 온다. 현재 최적 구성은 4-bit experts + FMA kernel로 4.36 tok/s를 기록했고, 2-bit experts는 5.74 tok/s까지 올라가지만 JSON 출력이 깨져 tool calling이 불안정해진다고 적혀 있다. 즉, 더 빠른 수치보다 usable inference를 우선해 4-bit 구성을 production 경로로 잡은 셈이다.

아키텍처 설명도 구체적이다. 모델은 60 transformer layers로 구성되며, 그중 45개는 GatedDeltaNet linear attention, 15개는 standard full attention이라고 한다. 각 레이어에는 512 experts가 있고 token마다 K=4 experts와 1개의 shared expert만 활성화된다. 이 sparse activation 구조 덕분에 대형 MoE를 작은 로컬 장비에 맞춰 쪼개서 다룰 수 있다.

구현 측면에서는 custom Metal compute pipeline이 중심이다. 프로젝트 문서는 hand-tuned Metal shaders, FMA-optimized dequant kernel, Accelerate BLAS 기반 linear attention, 그리고 OS page cache를 적극 활용하는 "Trust the OS" 원칙을 핵심 최적화로 제시한다. 특히 custom expert cache를 따로 두지 않고 macOS의 page cache가 약 71% hit rate를 자연스럽게 달성했다고 설명하는 점은, 로컬 LLM 엔지니어링에서 software complexity를 줄이는 선택으로 읽힌다.

하드웨어: MacBook Pro M3 Max, 48 GB unified memory, 1 TB SSD
최적 경로: 4-bit experts + FMA kernel, 4.36 tok/s
트레이드오프: 2-bit는 더 빠르지만 tool calling 품질 저하

Flash-MoE가 중요한 이유는 "대형 모델은 곧 대형 서버"라는 전제를 조금씩 흔들기 때문이다. 물론 이 프로젝트는 특정 Apple Silicon 환경에 맞춘 저수준 구현이고, 누구나 바로 재현할 수 있는 turnkey 제품은 아니다. 그래도 sparse MoE, SSD streaming, low-level kernel optimization을 조합하면 397B급 모델도 개인 장비에서 다룰 수 있다는 점을 수치와 설계 문서로 보여줬다는 점에서 로컬 inference 실험의 상한선을 한 단계 끌어올린 사례로 볼 수 있다.

Flash-MoE: 노트북에서 397B 파라미터 모델 실행

Related Articles

Unsloth Studio beta, local model workflow를 한 화면으로 묶으려 한다

Hacker News가 본 NanoGPT Slowrun의 10x 데이터 효율 주장

Hacker News가 본 16 GPU Autoresearch, 무엇이 정말 달라졌나

Comments (0)

Leave a Comment

Related Articles

Unsloth Studio beta, local model workflow를 한 화면으로 묶으려 한다

Hacker News가 본 NanoGPT Slowrun의 10x 데이터 효율 주장
Q Labs는 100M tokens와 18B-parameter ensemble로 1B-token baseline에 맞먹는 결과를 냈다고 주장했고, Hacker News는 이 성과가 serving과 deployment에서도 유지될 수 있는지 따져 물었다.

Hacker News가 본 16 GPU Autoresearch, 무엇이 정말 달라졌나
SkyPilot는 Claude Code가 8시간 동안 약 910개의 autoresearch 실험을 돌렸다고 설명했고, Hacker News는 진짜 돌파구가 에이전트 전략인지 인프라인지, 혹은 둘 다인지에 주목했다.