NVMe-to-GPU로 RTX 3090 단일 GPU에서 Llama 3.1 70B 실행

단일 소비자용 GPU에서 70B 모델 실행

Hacker News에 공개된 오픈소스 프로젝트 ntransformer가 단일 RTX 3090에서 Llama 3.1 70B 모델을 실행하는 방법을 선보여 233포인트를 받으며 주목받고 있습니다. RTX 3090의 VRAM은 24GB로, 일반적으로 70B 파라미터 모델(약 140GB)을 담기에는 턱없이 부족합니다.

핵심 기술: NVMe-to-GPU 직접 전송

이 프로젝트의 핵심은 CPU RAM을 완전히 우회하는 것입니다. 일반적인 모델 추론 방식에서는 모델 가중치를 저장소 → CPU RAM → GPU VRAM 순으로 이동시켜야 합니다. ntransformer는 NVMe SSD에서 GPU VRAM으로 가중치를 직접 스트리밍합니다.

CPU 메모리 병목 현상 제거
NVMe의 높은 대역폭 직접 활용
현재 필요한 레이어만 GPU에 로드 (레이어별 스트리밍)

의미와 한계

이 접근법은 고가의 서버급 하드웨어 없이도 대규모 모델을 실험할 수 있다는 점에서 의미가 있습니다. 물론 추론 속도는 VRAM에 모델이 완전히 로드된 경우보다 느리지만, 접근성 면에서 큰 진전입니다.

GitHub에서 오픈소스로 공개되어 있으며, 이를 활용해 고급 소비자 GPU를 보유한 개발자들이 70B급 모델을 로컬에서 실행할 수 있게 됩니다.

LLM Reddit Apr 5, 2026 1 min read

Gemma 4 초기 평가는 섣부르다? llama.cpp 수정 이슈를 짚은 LocalLLaMA 토론

LocalLLaMA에서는 Gemma 4 초기 문제의 일부가 model 자체보다 llama.cpp runtime bugs와 support lag에서 비롯됐을 수 있다는 지적이 나왔다. 여러 pull request와 user report가 early benchmark를 다시 해석해야 한다는 근거로 제시됐다.

#gemma-4 #llama-cpp #inference

LLM Mar 30, 2026 1 min read

NVIDIA, Dynamo 1.0으로 AI factory inference OS 상용 단계 진입

NVIDIA는 2026년 3월 16일 Dynamo 1.0을 공개하며 generative·agentic inference용 open-source 운영 계층을 본격 상용 단계로 끌어올렸다. 핵심은 Blackwell 성능 증폭, token cost 절감, open-source framework 통합을 한 번에 묶었다는 점이다.

#nvidia #dynamo #inference

LLM Reddit Mar 29, 2026 2 min read

r/MachineLearning이 올린 TurboQuant for weights, 4-bit weight quantization의 실전화

r/MachineLearning의 새 글이 TurboQuant를 KV cache 논의에서 weight compression 단계로 끌어왔다. GitHub 구현은 low-bit LLM inference용 drop-in path를 목표로 한다.

#quantization #llm #inference