Hacker News가 포착한 GreenBoost, system RAM과 NVMe로 GPU VRAM을 늘리는 Linux 스택

왜 이 HN 제출물이 의미 있었나

2026년 3월 15일 GreenBoost를 다룬 Hacker News 게시물은 124 points와 25 comments를 기록했다. 이 open-source 프로젝트는 local AI workload를 위한 3단계 memory system을 제안한다. 뜨거운 데이터는 GPU VRAM에 두고, 덜 자주 접근하는 allocation은 system RAM으로 넘기며, NVMe는 마지막 overflow tier로 사용하자는 구상이다. 핵심 메시지는 단순하다. inference stack을 다시 쓰지 않고도 consumer hardware에서 더 큰 LLM을 돌리자는 것이다.

README는 매우 구체적인 불만에서 출발한다. 작성자는 12 GB VRAM을 가진 RTX 5070에서 31.8 GB model을 실행하고 싶었다. CPU offload는 너무 느렸고, 더 작은 quantization은 품질을 낮췄으며, 더 큰 GPU로 업그레이드하는 것은 비용이 컸다. GreenBoost는 CUDA가 보는 allocation을 native VRAM 바깥까지 확장해 GPU를 계속 활용하려는 시도로 소개된다.

설계는 어떻게 동작하나

프로젝트는 두 개의 핵심 조각으로 구성된다. Linux kernel module은 pinned DDR memory를 할당하고 이를 DMA-BUF로 내보낸 뒤 GPU가 CUDA external memory로 가져오게 만든다. LD_PRELOAD로 주입되는 userspace shim은 cudaMalloc, cudaMallocAsync 같은 allocation 호출을 가로채 큰 allocation은 확장 pool로 보내고 작은 allocation은 그대로 통과시킨다. README는 또 이 shim이 symbol resolution도 후킹해 Ollama 같은 앱이 더 큰 memory budget을 올바르게 보게 만든다고 설명한다.

핵심은 tiering model이다. 뜨거운 layer를 위한 12 GB VRAM은 대략 336 GB/s, 더 차가운 weight와 KV cache를 위한 51 GB DDR4는 PCIe 4.0 위에서 동작하고, 64 GB NVMe는 safety valve 역할을 맡는다. 물론 이것이 RAM이나 storage를 진짜 VRAM처럼 바꿔 주는 것은 아니다. 대신 기존 CUDA application을 크게 건드리지 않으면서 bandwidth와 capacity를 맞바꾸는 더 부드러운 방법을 약속한다.

왜 사람들이 지켜보는가

Hacker News는 local AI의 비용을 낮추는 도구에 강하게 반응하고, GreenBoost는 정확히 그 지점에 놓여 있다. 이 프로젝트는 Linux 전용이고, 실험성이 강하며, low-level CUDA behavior에 깊이 묶여 있으므로 당장 mainstream용 drop-in solution으로 보기는 어렵다. 그럼에도 systems engineering 관점에서는 흥미롭다. consumer LLM inference의 진짜 병목인 compute보다 memory capacity를 정면으로 겨냥하기 때문이다.

이 접근이 더 많은 workload에서 안정성을 보인다면, midrange GPU에서 더 많은 일을 끌어내려는 개발자에게 의미가 생길 수 있다. 설령 niche에 머무르더라도, 이 저장소는 frontier급 workload를 더 작은 장비에 맞추기 위해 local-model community가 memory hierarchy를 얼마나 공격적으로 비틀고 있는지 보여주는 분명한 신호다.

Primary source: GitLab repository. Community discussion: Hacker News.

Hacker News가 포착한 GreenBoost, system RAM과 NVMe로 GPU VRAM을 늘리는 Linux 스택

왜 이 HN 제출물이 의미 있었나

설계는 어떻게 동작하나

왜 사람들이 지켜보는가

Related Articles

LocalLLaMA가 끌어올린 GreenBoost, NVIDIA GPU memory를 RAM과 NVMe로 확장하는 Linux driver

Google, Gemini 3.1 Flash-Lite 공개... 128k context와 저가 토큰 가격으로 대량 처리 겨냥

Hacker News, transformer 내부에서 program execution을 수행한다는 Percepta 주장에 주목

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA가 끌어올린 GreenBoost, NVIDIA GPU memory를 RAM과 NVMe로 확장하는 Linux driver

Google, Gemini 3.1 Flash-Lite 공개... 128k context와 저가 토큰 가격으로 대량 처리 겨냥

Hacker News, transformer 내부에서 program execution을 수행한다는 Percepta 주장에 주목