Hacker Newsが見つけたGreenBoost、system RAMとNVMeでGPU VRAMを拡張するLinuxスタック
Original: Nvidia greenboost: transparently extend GPU VRAM using system RAM/NVMe View original →
なぜこのHN投稿が意味を持ったのか
2026年3月15日、GreenBoostを扱ったHacker News投稿は124 points、25 commentsに達した。このopen-source projectはlocal AI workload向けに3-tier memory systemを提案している。hot dataはGPU VRAMに置き、アクセス頻度の低いallocationはsystem RAMへ逃がし、NVMeを最後のoverflow tierとして使うという構想だ。messageはシンプルで、inference stackを書き直さずにconsumer hardwareでより大きなLLMを動かしたいというものだ。
READMEはかなり具体的な不満から始まる。authorは12 GB VRAMのRTX 5070で31.8 GB modelを動かしたかった。CPU offloadは遅すぎ、より小さいquantizationは品質を落とし、もっと大きなGPUへのupgradeは高価だった。GreenBoostは、CUDAから見えるallocationをnative VRAMの外まで広げることでGPUを計算経路に残そうとする試みとして説明されている。
設計はどう動くのか
projectには2つの主要要素がある。Linux kernel moduleはpinned DDR memoryを確保し、DMA-BUFとして公開し、それをGPUがCUDA external memoryとしてimportできるようにする。LD_PRELOADで注入されるuserspace shimはcudaMallocやcudaMallocAsyncのようなallocation callを横取りし、大きなallocationを拡張poolへ送り、小さなallocationはそのまま通す。READMEによれば、このshimはsymbol resolutionもhookし、Ollamaのようなappが拡張後のmemory budgetを正しく認識できるようにしている。
核になるのはtiering modelだ。hot layer向けの12 GB VRAMはおよそ336 GB/s、より冷たいweightやKV cache向けの51 GB DDR4はPCIe 4.0越しに使われ、64 GB NVMeはsafety valveとして機能する。もちろん、これでRAMやstorageが本物のVRAMになるわけではない。だが、既存のCUDA applicationを大きく変えずに、bandwidthとcapacityを交換するより滑らかな手段を提示している点が重要だ。
なぜ注目が集まるのか
Hacker Newsはlocal AIのコストを下げるtoolに強く反応し、GreenBoostはまさにその領域にある。このprojectはLinux-onlyで、かなりexperimentalであり、low-level CUDA behaviorに深く依存しているため、現時点でmainstream向けのdrop-in solutionとは言えない。それでもsystems engineeringとしては面白い。consumer向けLLM inferenceの本当の制約であるcomputeではなくmemory capacityを正面から狙っているからだ。
この方式がより多くのworkloadで安定するなら、midrange GPUからもっと多くを引き出したい開発者にとって意味が出てくるだろう。仮にnicheにとどまったとしても、このrepositoryはfrontier級workloadを小さなboxに押し込むためにlocal-model communityがmemory hierarchyをどれほど積極的に曲げようとしているかを示す明確なsignalだ。
Primary source: GitLab repository. Community discussion: Hacker News.
Related Articles
LocalLLaMAで広がったGreenBoostは、limited vRAM問題を回避しようとするexperimentalなLinux kernel moduleだ。2026年3月14日のPhoronix記事によれば、このGPLv2 projectはkernel moduleとCUDA shimを組み合わせ、大きなallocationをon-card vRAMの外にあるpinned system RAMとNVMe tierへ逃がしつつ、CUDA applicationの修正なしにより大きなLLM workloadを走らせることを狙っている。
NVIDIAは2026年3月11日、120B parameter級の open model Nemotron 3 Super を発表した。NVIDIAは、1M-token context、hybrid MoE architecture、最大5倍の throughput により、agentic AI の context explosion と thinking tax を抑えると説明している。
Google DeepMindは2026年3月3日、Gemini 3.1 Flash-Liteを高頻度・低遅延ワークロード向けmodelとして提示した。会社は128k input、8k output、multimodal input、native audio generation、そして$0.10/$0.40水準のtoken pricingを強調している。
Comments (0)
No comments yet. Be the first to comment!