LLM Reddit Apr 28, 2026 1 min read
LocalLLaMAがこの投稿に反応した理由ははっきりしていた。27B modelを二枚の不揃いGPUのVRAM内へ押し込めるなら、遅い補助カードでもsystem RAMへあふれるよりましだという、かなり実務的な主張だったからだ。
LocalLLaMAがこの投稿に反応した理由ははっきりしていた。27B modelを二枚の不揃いGPUのVRAM内へ押し込めるなら、遅い補助カードでもsystem RAMへあふれるよりましだという、かなり実務的な主張だったからだ。
LocalLLaMA の高スコア thread は、merge された PR #19378 によって <code>llama.cpp</code> の multi-GPU 実行が一段進んだと受け止めた。ただし新しい <code>--split-mode tensor</code> は明確に experimental で、現状は CUDA が中心、ROCm と Vulkan には性能や安定性の課題が残る。