NVMe-to-GPUで単体RTX 3090上でLlama 3.1 70Bを実行
Original: Show HN: Llama 3.1 70B on a single RTX 3090 via NVMe-to-GPU bypassing the CPU View original →
単体消費者向けGPUで70Bモデルを動かす
Hacker Newsで公開されたオープンソースプロジェクトntransformerが、24GBのVRAMしか持たない単体のRTX 3090でLlama 3.1 70Bモデルを動作させる方法を実証し、233ポイントを獲得して注目を集めています。70Bパラメータモデルは通常約140GBのメモリを必要とし、消費者向けGPUには到底収まりません。
核心技術:NVMe-to-GPU直接転送
この手法の要はCPU RAMを完全にバイパスすることです。通常の推論では「ストレージ→CPU RAM→GPU VRAM」という経路でウェイトを移動させます。ntransformerはNVMe SSDからGPU VRAMへ直接ウェイトをストリーミングします。
- CPU メモリのボトルネックを排除
- NVMeの高い帯域幅を直接活用
- 現在必要なレイヤーのみGPUにロード(レイヤー単位ストリーミング)
意義と展望
このアプローチは、高価なサーバーグレードのハードウェアなしに大規模モデルを試せる点で重要です。推論速度はVRAMにモデルが完全に常駐している場合より遅くなりますが、アクセシビリティの向上は大きな意義があります。GitHubでオープンソースとして公開されており、高性能消費者向けGPUを持つ開発者が70Bクラスのモデルをローカルで実行できるようになります。
Related Articles
OrthrusフレームワークがQwen3モデルで1回のforwardパスあたり最大7.8倍のトークン生成を達成した。単一KVキャッシュで自動回帰と拡散ビューを統合するデュアルビューアーキテクチャにより、出力分布は原本と数学的に同一だ。
text-generation-webuiが「TextGen」に改名し、Windows・Linux・macOS対応のインストール不要なネイティブデスクトップアプリとして生まれ変わった。LM Studioと同様のElectron構成だが、完全オープンソースという点が大きな違い。
MetaがLlamaモデルの派生物を配布していたHereticプロジェクトに法的通知を送りました。Hereticはガリレオを引用する皮肉な声明と共にファイルを削除し、ドイツのCodebergにミラーを設置しました。