Hacker News가 포착한 GreenBoost, system RAM과 NVMe로 GPU VRAM을 늘리는 Linux 스택

Original: Nvidia greenboost: transparently extend GPU VRAM using system RAM/NVMe View original →

Read in other languages: English日本語
LLM Mar 19, 2026 By Insights AI (HN) 2 min read Source

왜 이 HN 제출물이 의미 있었나

2026년 3월 15일 GreenBoost를 다룬 Hacker News 게시물은 124 points와 25 comments를 기록했다. 이 open-source 프로젝트는 local AI workload를 위한 3단계 memory system을 제안한다. 뜨거운 데이터는 GPU VRAM에 두고, 덜 자주 접근하는 allocation은 system RAM으로 넘기며, NVMe는 마지막 overflow tier로 사용하자는 구상이다. 핵심 메시지는 단순하다. inference stack을 다시 쓰지 않고도 consumer hardware에서 더 큰 LLM을 돌리자는 것이다.

README는 매우 구체적인 불만에서 출발한다. 작성자는 12 GB VRAM을 가진 RTX 5070에서 31.8 GB model을 실행하고 싶었다. CPU offload는 너무 느렸고, 더 작은 quantization은 품질을 낮췄으며, 더 큰 GPU로 업그레이드하는 것은 비용이 컸다. GreenBoost는 CUDA가 보는 allocation을 native VRAM 바깥까지 확장해 GPU를 계속 활용하려는 시도로 소개된다.

설계는 어떻게 동작하나

프로젝트는 두 개의 핵심 조각으로 구성된다. Linux kernel module은 pinned DDR memory를 할당하고 이를 DMA-BUF로 내보낸 뒤 GPU가 CUDA external memory로 가져오게 만든다. LD_PRELOAD로 주입되는 userspace shim은 cudaMalloc, cudaMallocAsync 같은 allocation 호출을 가로채 큰 allocation은 확장 pool로 보내고 작은 allocation은 그대로 통과시킨다. README는 또 이 shim이 symbol resolution도 후킹해 Ollama 같은 앱이 더 큰 memory budget을 올바르게 보게 만든다고 설명한다.

핵심은 tiering model이다. 뜨거운 layer를 위한 12 GB VRAM은 대략 336 GB/s, 더 차가운 weight와 KV cache를 위한 51 GB DDR4는 PCIe 4.0 위에서 동작하고, 64 GB NVMe는 safety valve 역할을 맡는다. 물론 이것이 RAM이나 storage를 진짜 VRAM처럼 바꿔 주는 것은 아니다. 대신 기존 CUDA application을 크게 건드리지 않으면서 bandwidth와 capacity를 맞바꾸는 더 부드러운 방법을 약속한다.

왜 사람들이 지켜보는가

Hacker News는 local AI의 비용을 낮추는 도구에 강하게 반응하고, GreenBoost는 정확히 그 지점에 놓여 있다. 이 프로젝트는 Linux 전용이고, 실험성이 강하며, low-level CUDA behavior에 깊이 묶여 있으므로 당장 mainstream용 drop-in solution으로 보기는 어렵다. 그럼에도 systems engineering 관점에서는 흥미롭다. consumer LLM inference의 진짜 병목인 compute보다 memory capacity를 정면으로 겨냥하기 때문이다.

이 접근이 더 많은 workload에서 안정성을 보인다면, midrange GPU에서 더 많은 일을 끌어내려는 개발자에게 의미가 생길 수 있다. 설령 niche에 머무르더라도, 이 저장소는 frontier급 workload를 더 작은 장비에 맞추기 위해 local-model community가 memory hierarchy를 얼마나 공격적으로 비틀고 있는지 보여주는 분명한 신호다.

Primary source: GitLab repository. Community discussion: Hacker News.

Share: Long

Related Articles

LLM Reddit 3d ago 1 min read

LocalLLaMA에서 확산된 GreenBoost는 limited vRAM 문제를 우회하려는 experimental Linux kernel module이다. 2026년 3월 14일 Phoronix 보도에 따르면 이 GPLv2 프로젝트는 kernel module과 CUDA shim을 결합해, 큰 allocation을 on-card vRAM 밖의 pinned system RAM과 NVMe tier로 넘기면서도 CUDA application 수정 없이 더 큰 LLM workload를 돌리는 것을 목표로 한다.

LLM Hacker News 5d ago 2 min read

Percepta는 2026년 3월 11일 공개한 글에서 transformer 내부에 computer를 만들고, arbitrary C program을 수백만 step 실행하며, 2D attention head로 inference를 지수적으로 가속할 수 있다고 주장했다. HN 이용자들은 흥미로운 연구 방향으로 봤지만, 더 명확한 설명과 benchmark, 실제 확장성에 대한 근거를 요구했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.