Hacker Newsが見つけたGreenBoost、system RAMとNVMeでGPU VRAMを拡張するLinuxスタック

なぜこのHN投稿が意味を持ったのか

2026年3月15日、GreenBoostを扱ったHacker News投稿は124 points、25 commentsに達した。このopen-source projectはlocal AI workload向けに3-tier memory systemを提案している。hot dataはGPU VRAMに置き、アクセス頻度の低いallocationはsystem RAMへ逃がし、NVMeを最後のoverflow tierとして使うという構想だ。messageはシンプルで、inference stackを書き直さずにconsumer hardwareでより大きなLLMを動かしたいというものだ。

READMEはかなり具体的な不満から始まる。authorは12 GB VRAMのRTX 5070で31.8 GB modelを動かしたかった。CPU offloadは遅すぎ、より小さいquantizationは品質を落とし、もっと大きなGPUへのupgradeは高価だった。GreenBoostは、CUDAから見えるallocationをnative VRAMの外まで広げることでGPUを計算経路に残そうとする試みとして説明されている。

設計はどう動くのか

projectには2つの主要要素がある。Linux kernel moduleはpinned DDR memoryを確保し、DMA-BUFとして公開し、それをGPUがCUDA external memoryとしてimportできるようにする。LD_PRELOADで注入されるuserspace shimはcudaMallocやcudaMallocAsyncのようなallocation callを横取りし、大きなallocationを拡張poolへ送り、小さなallocationはそのまま通す。READMEによれば、このshimはsymbol resolutionもhookし、Ollamaのようなappが拡張後のmemory budgetを正しく認識できるようにしている。

核になるのはtiering modelだ。hot layer向けの12 GB VRAMはおよそ336 GB/s、より冷たいweightやKV cache向けの51 GB DDR4はPCIe 4.0越しに使われ、64 GB NVMeはsafety valveとして機能する。もちろん、これでRAMやstorageが本物のVRAMになるわけではない。だが、既存のCUDA applicationを大きく変えずに、bandwidthとcapacityを交換するより滑らかな手段を提示している点が重要だ。

なぜ注目が集まるのか

Hacker Newsはlocal AIのコストを下げるtoolに強く反応し、GreenBoostはまさにその領域にある。このprojectはLinux-onlyで、かなりexperimentalであり、low-level CUDA behaviorに深く依存しているため、現時点でmainstream向けのdrop-in solutionとは言えない。それでもsystems engineeringとしては面白い。consumer向けLLM inferenceの本当の制約であるcomputeではなくmemory capacityを正面から狙っているからだ。

この方式がより多くのworkloadで安定するなら、midrange GPUからもっと多くを引き出したい開発者にとって意味が出てくるだろう。仮にnicheにとどまったとしても、このrepositoryはfrontier級workloadを小さなboxに押し込むためにlocal-model communityがmemory hierarchyをどれほど積極的に曲げようとしているかを示す明確なsignalだ。

Primary source: GitLab repository. Community discussion: Hacker News.

Hacker Newsが見つけたGreenBoost、system RAMとNVMeでGPU VRAMを拡張するLinuxスタック

なぜこのHN投稿が意味を持ったのか

設計はどう動くのか

なぜ注目が集まるのか

Related Articles

LocalLLaMAが押し上げたGreenBoost、RAMとNVMeでNVIDIA GPU memoryを拡張するLinux driver

NVIDIA、Nemotron 3 Superを公開 1M context と最大5倍 throughput で agentic AI を狙う

Google、Gemini 3.1 Flash-Liteを公開 128k contextと低価格で高頻度処理を狙う

Comments (0)

Leave a Comment

Related Articles

LocalLLaMAが押し上げたGreenBoost、RAMとNVMeでNVIDIA GPU memoryを拡張するLinux driver

NVIDIA、Nemotron 3 Superを公開 1M context と最大5倍 throughput で agentic AI を狙う

Google、Gemini 3.1 Flash-Liteを公開 128k contextと低価格で高頻度処理を狙う