AI X/Twitter Apr 18, 2026 1 min read
重要なのは、CloudflareがLLM servingの制約をGPU台数ではなくmemory-bandwidthの問題として扱っている点だ。記事はLlama 3.1 8Bで15-22%のmodel-size reduction、約3GBのVRAM削減、公開GPU kernelsを示した。
重要なのは、CloudflareがLLM servingの制約をGPU台数ではなくmemory-bandwidthの問題として扱っている点だ。記事はLlama 3.1 8Bで15-22%のmodel-size reduction、約3GBのVRAM削減、公開GPU kernelsを示した。