NVMe-to-GPUで単体RTX 3090上でLlama 3.1 70Bを実行

単体消費者向けGPUで70Bモデルを動かす

Hacker Newsで公開されたオープンソースプロジェクトntransformerが、24GBのVRAMしか持たない単体のRTX 3090でLlama 3.1 70Bモデルを動作させる方法を実証し、233ポイントを獲得して注目を集めています。70Bパラメータモデルは通常約140GBのメモリを必要とし、消費者向けGPUには到底収まりません。

核心技術：NVMe-to-GPU直接転送

この手法の要はCPU RAMを完全にバイパスすることです。通常の推論では「ストレージ→CPU RAM→GPU VRAM」という経路でウェイトを移動させます。ntransformerはNVMe SSDからGPU VRAMへ直接ウェイトをストリーミングします。

CPU メモリのボトルネックを排除
NVMeの高い帯域幅を直接活用
現在必要なレイヤーのみGPUにロード（レイヤー単位ストリーミング）

意義と展望

このアプローチは、高価なサーバーグレードのハードウェアなしに大規模モデルを試せる点で重要です。推論速度はVRAMにモデルが完全に常駐している場合より遅くなりますが、アクセシビリティの向上は大きな意義があります。GitHubでオープンソースとして公開されており、高性能消費者向けGPUを持つ開発者が70Bクラスのモデルをローカルで実行できるようになります。

LLM Reddit Apr 5, 2026 1 min read

Gemma 4 の早計な評価は危険？ LocalLLaMA で llama.cpp 修正をめぐる議論

LocalLLaMA では、Gemma 4 の初期トラブルの一部は model 自体ではなく llama.cpp runtime bugs や support lag に起因する可能性があるという指摘が出ている。複数の pull request と user report が、early benchmark を読み替える必要性を示している。

#gemma-4 #llama-cpp #inference

LLM Mar 30, 2026 1 min read

NVIDIA、Dynamo 1.0をAI factory向けinference OSとして本番投入

NVIDIAは2026年3月16日、generative/agentic inference向けopen-source基盤としてDynamo 1.0を発表した。Blackwell性能の引き上げ、token cost削減、主要framework統合を一体化した点が大きい。

#nvidia #dynamo #inference

LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。

#qwen #local-llm #llama-cpp