LocalLLaMAが押し上げたGreenBoost、RAMとNVMeでNVIDIA GPU memoryを拡張するLinux driver
Original: Open-Source "GreenBoost" Driver Aims To Augment NVIDIA GPUs vRAM With System RAM & NVMe To Handle Larger LLMs View original →
GreenBoostは、LocalLLaMAが素早く反応する種類のinfrastructure projectだ。理由は単純で、local LLM ecosystemにおける最も厳しい実務上の制約の1つ、つまりGPU memory不足を正面から狙っているからだ。crawl時点でこのReddit threadは141 upvotesと38 commentsを集めていた。リンク先のPhoronix記事は2026年3月14日に公開され、GreenBoostをsystem RAMとNVMe storageでNVIDIA GPU memoryを補強するためのindependently developedなopen-source Linux kernel moduleとして紹介している。
Phoronixによれば、GreenBoostはNVIDIAの公式Linux driver stackを置き換えるものではない。代わりに、専用kernel module greenboost.ko とCUDA user-space shimを組み合わせて横に付け足す構成を取る。kernel側ではbuddy allocatorでpinned DDR4 pageを確保し、それをDMA-BUF file descriptorとして公開する。GPUはそのpageをCUDA external memoryとしてimportでき、実際のdata movementはPCIe 4.0 x16が担うという。さらにsysfs interfaceとwatchdog threadでRAMやNVMe pressureも監視する。
communityが注目した技術ポイント
- small allocationは通常どおり通し、overflowしたmodel weightやKV cacheのようなlarge allocationだけを拡張memory pathへ送るCUDA shim構造である。
- user-space layerはallocation callやsymbol lookupまでhookし、Ollamaのようなsoftwareがより大きなusable poolを見られるようにする。
- 開発者の動機として挙げられたのは、GeForce RTX 5070 12GBで31.8 GB modelを動かしたいという具体的な問題だった。
これが面白いのは、local inferenceでよくある妥協を別方向から解こうとしている点にある。従来はsystem memoryへのoffloadでthroughputを落とすか、より強いquantizationでqualityを落とすかになりがちだった。GreenBoostはstorage hierarchyをより積極的にGPU memory surfaceの一部として扱うことで、その妥協を和らげようとする。もちろん実用性はbandwidth、latency、workload shapeに大きく左右され、codeも明らかにexperimentalだ。それでもLocalLLaMAがこの話題を強く押し上げた理由は分かりやすい。consumer GPUのmemory ceilingは、今もなお多くの人が望むmodelを望むprecisionで回せない最大の壁の1つだからだ。
Source: Phoronix · Code: GitLab · Community discussion: r/LocalLLaMA
Related Articles
2026年3月15日に高い反応を集めたLocalLLaMA threadは、NVIDIA Nemotron model familyのlicense変更に注目した。現在のNVIDIA Nemotron Model Licenseを以前のOpen Model Licenseと比べると、communityが反応した理由は明快だ。以前のguardrail termination clauseとTrustworthy AIへの参照が見当たらなくなり、代わりにNOTICEベースのattribution構造が前面に出ている。
NVIDIAは2026年3月11日、120B parameter級の open model Nemotron 3 Super を発表した。NVIDIAは、1M-token context、hybrid MoE architecture、最大5倍の throughput により、agentic AI の context explosion と thinking tax を抑えると説明している。
r/LocalLLaMAで共有されたFlashAttention-4は、B200 BF16で最大1605 TFLOPs/sを報告し、Blackwell世代のメモリ/SFU制約を前提にした新しいattention最適化を示した。
Comments (0)
No comments yet. Be the first to comment!