Googleは2026年10月から2029年6月まで、約110,000基のNVIDIA GPUなどを使うためSpaceXに月$920Mを支払う。Gemini Enterpriseの需要が想定を上回り、巨大インフラ企業でも外部computeを借りる局面に入った。
#gpu
RSS FeedLocalLLaMAで注目されたのは、同じGPU・同じmodel・同じsoftware stackのまま、throughput 15%増とfirst-token P99 latency 40.6%減を主張した点だった。
ZOZOが布・ロープ・軟体向けの接触ソルバーを公開した。単一シーンで1.8億超の接点を扱い、BlenderアドオンとApache 2.0ライセンスも備える。
LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。
Tom's Hardwareの調査によると、PC ゲーマーの60%が今後2年間で新しいPCを自作する計画がないことが判明。AI需要によるRAM価格の急騰が熱心なゲーマー市場を事実上麻痺させている。
AMDがFSR(FidelityFX Super Resolution)アップスケーリン4.1をRadeon RX 7000シリーズへ2026年7月に正式対応すると発表。RX 6000シリーズへの対応は2027年の予定。
4月29日の共同声明によると、GALAX関連の運営と顧客対応は今後Palitの公式チャネルが担当する。既存ユーザーの保証やRMA窓口もPalitへ移る。
HNがこのpostを面白がった理由は、Apple Silicon unified memoryでWasm sandboxとGPU bufferが本当に同じbytesを扱えるのかという実装上の境界だった。
重要なのは、CloudflareがLLM servingの制約をGPU台数ではなくmemory-bandwidthの問題として扱っている点だ。記事はLlama 3.1 8Bで15-22%のmodel-size reduction、約3GBのVRAM削減、公開GPU kernelsを示した。
Hugging Faceは最適化GPUコードをHub-native artifactとして扱い、PyTorch運用で最も厄介な配布工程を薄くしようとしている。Clement Delangueによれば、新しいKernelsフローはGPU、PyTorchビルド、OSに合わせたprecompiled binaryを配り、PyTorch baseline比で1.7倍から2.5倍の高速化を狙う。
Hacker Newsのfront pageに上がったEE Times interviewは、AMDがROCm、Triton、OneROCm、open-sourceの運用でCUDA依存を段階的に削ろうとしていることを整理している。重要なのは派手な互換性宣言ではなく、vLLMやSGLangが自然に動くboringなsoftware完成度だ。
MachineLearningコミュニティの投稿は、RTX 5090でcuBLASがbatched FP32 MatMulに非効率なkernelを選んでいる可能性を指摘する。重要なのは、単なる不満ではなく、再現可能なbenchmark表とprofiling情報を伴うdispatch問題の提起になっている点だ。