Hacker Newsが注目したHypura、Macで容量超えLLMを階層スケジューリング実行
Original: Hypura – A storage-tier-aware LLM inference scheduler for Apple Silicon View original →
Hacker NewsでHypuraが注目されたのは、Apple Siliconでありがちなlocal inference failure modeを正面から扱っているからだ。model file自体はdiskに置けても、実際のinference開始後にmemory limitを超えてsystemが破綻する、という問題である。Hypuraは、すべてのweightを一つのtierに載せる前提を捨て、model tensorをGPU memory、system RAM、NVMeにまたがって配置するstorage-tier-aware schedulerだと説明している。
repository READMEによれば、Hypuraはmachine profileとGGUF layoutを読み取り、どのtensorをGPUに常駐させ、どれをRAMへ逃がし、どれをNVMeからon demandでstreamするかを決める。normsとembeddingsは毎tokenアクセスされるためcomputeの近くに固定される。MoE modelではschedulerがrouter decisionを捕捉し、実際に発火したexpertだけを読み込む一方、neuron cacheがtoken間のtemporal localityを活用する。dense modelでは大きなFFN weightsをpredictive prefetch付きのbuffer経由でstreamする。
- READMEは31 GBのMixtral 8x7Bを32 GB Mac Miniで2.2 tok/sで動かせるとしている。
- さらに同じmemory classで40 GBのLlama 70Bを0.3 tok/sで走らせたと報告しており、vanilla
llama.cppではOOMになるという。 - expert streaming pathではI/Oを75%削減し、warmup後のneuron-cache hit rateは99.5%に達すると主張している。
重要なのは、NVMeが魔法のようにVRAMと同じ速度になるという話ではないことだ。Hypuraの主張は、model architectureを理解すればtiered schedulingは十分に意味を持つという点にある。MoE sparsityによって毎tokenで本当にhotなweightsは一部に限られ、dense modelにもresidentにしておく恩恵が大きいcomponentがある。storageをfatal fallbackではなくcold tierとして扱うことで、「読み込めない」を「遅いが動く」に変えようとしている。
だからこそHNで興味を集めたのだろう。Mac向けlocal LLM toolingはraw GPU performanceよりmemory ceilingに縛られる場面が増えており、Hypuraはそのceilingをscheduling problemへ変換しようとする比較的明快な試みだ。repositoryがOllama-compatible serverも公開していることから、benchmark screenshotだけでなく実際のtool ecosystemとのinteroperabilityも意識していると分かる。
一次情報: Hypura repository。コミュニティ出典: Hacker News thread。
Related Articles
r/MachineLearning の project post が、Apple の MLX stack を Unsloth 互換に近い API で包む mlx-tune を紹介した。Apple Silicon Mac 上で SFT、DPO、GRPO、LoRA、vision-language fine-tuning を試したい開発者向けの実用的な bridge だ。
Hacker Newsで注目を集めたFlash-MoEは、SSDストリーミングとMetalカーネルを使ってQwen3.5-397B-A17Bを48GB M3 MaxノートPCで対話可能な速度まで動かす手法を示した。
r/LocalLLaMA に投稿された rerun benchmark は、Apple M5 Max の強みが token generation 単体より prompt processing にあると主張する。Qwen 3.5 35B-A3B MoE の 2,845 tok/s PP512 などの数値は community measurement であり、独立 lab benchmark ではない。
Comments (0)
No comments yet. Be the first to comment!