重要なのは、AI infrastructureの競争が単体GPU rentalからsupercomputer級のmanaged clusterへ移っていることだ。Google CloudはA4X Max bare-metal instanceが最大50,000 GPU clusterと従来比2倍のnetwork bandwidthを支えると書いた。
#gpus
RSS FeedAWSは2026年3月16日、NVIDIAとの協業をchipとnetworkingからsoftware、data movement、Amazon Bedrock model serviceまで拡大すると発表した。両社は2026年からAWS Region全体で1 million超のGPU提供を計画し、Blackwell、Nemotron、NIXL integrationをproduction AI workload向けに強化する。
MetaはFebruary 24, 2026、最大6GWのAMD Instinct GPUを含む長期AI infrastructure契約をAMDと結んだと発表した。単なるchip調達ではなく、hardware、software、systemsのroadmapを揃えるmulti-year協業が中心にある。
NVIDIAはKubeCon Europeで、GPU Dynamic Resource Allocation driverをCNCFとupstream Kubernetes ecosystemに移すと発表した。confidential containers、KAI Scheduler、Grove APIも合わせて示し、大規模AI cluster運用の標準化を前に進める狙いが見える。
SkyPilotはClaude Codeが8時間で約910件の autoresearch 実験を回したと説明し、Hacker Newsでは本当の進歩が agent の戦略なのか、インフラなのか、その両方なのかが議論になった。
MetaはAMDと、最大6GWのAMD Instinct GPU導入を含む長期契約を発表しました。シリコン・システム・ソフトウェアのロードマップを連携し、2026年後半からHeliosラックスケール構成で初期展開を進める計画です。