16GB VRAMの抜け道か LocalLLaMAが出した「古いGPUを足す」現実策
Original: To 16GB VRAM users, plug in your old GPU View original →
なぜこのスレッドが刺さったのか
LocalLLaMAでは高価なworkstation構成がよく話題になるが、この投稿が伸びたのは逆方向の希望を出したからだ。新しい最上位GPUを二枚買えという話ではない。手元の古いGPUを、捨てるものではなく追加VRAMとして使えという提案だった。論点は明快で、27B級のdense modelをsystem RAMへ逃がさず、二枚のGPU VRAM内に収められるなら、カードが不揃いでも長文脈generationの体感はかなり改善する、というものだ。投稿者はRTX 5070 Ti 16GBに古いRTX 2060 6GBを足す例を示した。
この発想がコミュニティに響いたのは、local inferenceの現実的な悩みを正面から突いていたからである。今の問題は理論上のピーク性能より、どうやってVRAM内に全部押し込むかだ。
投稿者が示した実測
元投稿はllama-server設定までかなり具体的だった。二つのdeviceを同時に有効化し、GPU layer offloadを優先し、no-mmapとq8のKV cacheを使い、128k contextを狙う。重要なのは、split-modeのlayer offloadが同型GPU前提ではないという点だ。実際の例では約71k contextでprompt processingが186.76 t/s、generationが19.21 t/sほど出たとされ、単一カードでCPU memoryへ逃がしたときの4 t/s前後よりかなり実用的だと説明していた。
さらにllama-benchの数値も貼られていた。CUDA 12.4では、8k contextのgenerationが単一GPUの16.54 t/sから二枚構成で25.40 t/sへ上がり、16k contextでは12.03 t/sから24.31 t/sへ伸びた。要するに、構成が不均衡でもVRAM内に閉じ込める価値が大きいという話である。
コメント欄が加えた現実感
上位コメントはすぐ補足を入れた。NVIDIAカードならVulkanよりCUDAを使うべきだという指摘が最初に来た。別のユーザーも「VRAMはRAMよりだいたい速い」という原則には賛成しつつ、弱い補助カードは短い文脈ではボトルネックになりうると書いた。3090 Tiと2070を併用した例では、短文脈では遅くなるが、CPU offloadよりはましだったという実体験も共有された。
この反応が良かった。コミュニティはこれを万能解とは見ていない。バランスを崩してでも、長文脈generationをRAM落ちから救うための取引として見ていた。
なぜLocalLLaMAが押し上げたのか
いまのLocalLLaMAは、より大きなopen modelを追うだけでは満足しない。手持ちのハードウェアで、それをどれだけ現実的に回せるかにも強い関心がある。この投稿のうまさは、古いGPUを追加計算資源ではなく追加モデルメモリとして再定義した点にある。24GB超のカードへすぐ飛べないユーザーにとっては、leaderboardよりずっと役に立つ知恵だった。
出典: r/LocalLLaMAスレッド
Related Articles
LocalLLaMAが反応したのは新model自慢ではなく、--fitが「VRAMに全部入らなければ遅い」という経験則を揺らしたからだ。
LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。
r/LocalLLaMA の投稿は、Qwen3.5-122B-A10B Uncensored (Aggressive) の GGUF release と新しい K_P quants を紹介している。0/465 refusals や zero capability loss などの数値は投稿者自身の説明であり、独立検証ではない。