NVMe-to-GPU로 RTX 3090 단일 GPU에서 Llama 3.1 70B 실행

단일 소비자용 GPU에서 70B 모델 실행

Hacker News에 공개된 오픈소스 프로젝트 ntransformer가 단일 RTX 3090에서 Llama 3.1 70B 모델을 실행하는 방법을 선보여 233포인트를 받으며 주목받고 있습니다. RTX 3090의 VRAM은 24GB로, 일반적으로 70B 파라미터 모델(약 140GB)을 담기에는 턱없이 부족합니다.

핵심 기술: NVMe-to-GPU 직접 전송

이 프로젝트의 핵심은 CPU RAM을 완전히 우회하는 것입니다. 일반적인 모델 추론 방식에서는 모델 가중치를 저장소 → CPU RAM → GPU VRAM 순으로 이동시켜야 합니다. ntransformer는 NVMe SSD에서 GPU VRAM으로 가중치를 직접 스트리밍합니다.

CPU 메모리 병목 현상 제거
NVMe의 높은 대역폭 직접 활용
현재 필요한 레이어만 GPU에 로드 (레이어별 스트리밍)

의미와 한계

이 접근법은 고가의 서버급 하드웨어 없이도 대규모 모델을 실험할 수 있다는 점에서 의미가 있습니다. 물론 추론 속도는 VRAM에 모델이 완전히 로드된 경우보다 느리지만, 접근성 면에서 큰 진전입니다.

GitHub에서 오픈소스로 공개되어 있으며, 이를 활용해 고급 소비자 GPU를 보유한 개발자들이 70B급 모델을 로컬에서 실행할 수 있게 됩니다.

LLM Hacker News May 16, 2026 1 min read

Orthrus-Qwen3: 동일 출력 품질 유지하며 추론 속도 7.8배 향상

Orthrus 프레임워크가 Qwen3 모델에서 forward pass당 최대 7.8배 토큰 생성 속도를 달성했다. 단일 KV 캐시로 자동회귀와 확산 뷰를 통합하는 이중 뷰 아키텍처 덕분에 출력 분포는 원본과 동일하다.

#inference #qwen3 #speculative-decoding

LLM Reddit May 14, 2026 1 min read

LM Studio 오픈소스 대안 TextGen, 네이티브 데스크톱 앱으로 재탄생

2022년 12월부터 개발된 text-generation-webui가 'TextGen'이라는 이름으로 Windows·Linux·macOS를 지원하는 네이티브 데스크톱 앱으로 출시됐다. Electron 기반의 설치 불필요 앱으로, LM Studio와 동일한 방식이지만 완전 오픈소스다.

#textgen #local-llm #open-source

LLM Reddit May 22, 2026 1 min read

Meta, 오픈소스 AI 프로젝트 Heretic에 법적 경고 — Galileo 인용하며 응수

Meta가 Llama 파생 모델을 배포하던 오픈소스 프로젝트 Heretic에 법적 통보를 보냈습니다. Heretic은 갈릴레오 재판을 인용하는 풍자적 공개 성명을 발표하면서 독일 Codeberg에 미러를 설치했습니다.

#meta #llama #open-source