LocalLLaMAが押し上げたGreenBoost、RAMとNVMeでNVIDIA GPU memoryを拡張するLinux driver

GreenBoostは、LocalLLaMAが素早く反応する種類のinfrastructure projectだ。理由は単純で、local LLM ecosystemにおける最も厳しい実務上の制約の1つ、つまりGPU memory不足を正面から狙っているからだ。crawl時点でこのReddit threadは141 upvotesと38 commentsを集めていた。リンク先のPhoronix記事は2026年3月14日に公開され、GreenBoostをsystem RAMとNVMe storageでNVIDIA GPU memoryを補強するためのindependently developedなopen-source Linux kernel moduleとして紹介している。

Phoronixによれば、GreenBoostはNVIDIAの公式Linux driver stackを置き換えるものではない。代わりに、専用kernel module greenboost.ko とCUDA user-space shimを組み合わせて横に付け足す構成を取る。kernel側ではbuddy allocatorでpinned DDR4 pageを確保し、それをDMA-BUF file descriptorとして公開する。GPUはそのpageをCUDA external memoryとしてimportでき、実際のdata movementはPCIe 4.0 x16が担うという。さらにsysfs interfaceとwatchdog threadでRAMやNVMe pressureも監視する。

communityが注目した技術ポイント

small allocationは通常どおり通し、overflowしたmodel weightやKV cacheのようなlarge allocationだけを拡張memory pathへ送るCUDA shim構造である。
user-space layerはallocation callやsymbol lookupまでhookし、Ollamaのようなsoftwareがより大きなusable poolを見られるようにする。
開発者の動機として挙げられたのは、GeForce RTX 5070 12GBで31.8 GB modelを動かしたいという具体的な問題だった。

これが面白いのは、local inferenceでよくある妥協を別方向から解こうとしている点にある。従来はsystem memoryへのoffloadでthroughputを落とすか、より強いquantizationでqualityを落とすかになりがちだった。GreenBoostはstorage hierarchyをより積極的にGPU memory surfaceの一部として扱うことで、その妥協を和らげようとする。もちろん実用性はbandwidth、latency、workload shapeに大きく左右され、codeも明らかにexperimentalだ。それでもLocalLLaMAがこの話題を強く押し上げた理由は分かりやすい。consumer GPUのmemory ceilingは、今もなお多くの人が望むmodelを望むprecisionで回せない最大の壁の1つだからだ。

Source: Phoronix · Code: GitLab · Community discussion: r/LocalLLaMA

LocalLLaMAが押し上げたGreenBoost、RAMとNVMeでNVIDIA GPU memoryを拡張するLinux driver

communityが注目した技術ポイント

Related Articles

Tiny-vLLM、C++とCUDAでLLM inferenceを作りながら学ぶ小さな実装

Nemotron 3 Ultra、550B MoEで長時間agentのコストを30%圧縮へ

AgentPerf初公開、GB300はH200比でMWあたりcoding agent最大20倍

Related Articles

Tiny-vLLM、C++とCUDAでLLM inferenceを作りながら学ぶ小さな実装
LLM Hacker News May 31, 2026 1 min read

Nemotron 3 Ultra、550B MoEで長時間agentのコストを30%圧縮へ
LLM Jun 1, 2026 1 min read

AgentPerf初公開、GB300はH200比でMWあたりcoding agent最大20倍
AI agent基盤の評価軸が、単純なトークン速度から同時セッション数と電力効率へ移っている。NVIDIAはArtificial AnalysisのAA-AgentPerfで、GB300 NVL72がH200よりMWあたり最大20倍のcoding agent処理能力を示したと説明した。