Google Cloud A4X Max、AI clusterを50,000 GPUと2倍networkへ広げた
Original: A4X Max bare-metal instances support clusters of up to 50,000 GPUs with double the network bandwidth of previous generations View original →
tweetが示したこと
Google Cloud Techは新しいAI infrastructureのscaleを具体的な数字で示した。中心になる一文は A4X Max bare-metal instances support clusters of up to 50,000 GPUs with double the network bandwidth だ。これが重要なのは、frontier model trainingやhigh-throughput inferenceの限界がGPU数だけで決まらないからだ。実際にはnetwork fabric、placement、quota、storage path、数千acceleratorsへdataを供給し続ける仕組みがbottleneckになる。
Google Cloud Tech accountは、Google Cloudのdeveloper-facing channelとしてhow-to、demo、product update、technical docsを継続的に投稿している。今回のpostも短いsocial claimだけではなく、Compute Engine documentationのA4X Max and A4X machine seriesへつないでいる。そのため、このtweetは単なるbrand messageではなく、cloud AI clusterのspecを読むべき材料になる。
docsから見える文脈
リンク先docsは、A4X MaxとA4XをGPU-accelerated AI、ML、HPC workloads向けのaccelerator-optimized familyに置いている。Google Cloud docsによると、A4X MaxはNVIDIA GB300 Ultra SuperchipsとB300 GPUsを使うexascale platformで、A4XはGB200 SuperchipsとB200 GPUsを使う。両seriesはNVIDIAのNVL72 rack-scale architectureを基盤にしている。1つのNVL72 domainは18 instancesと72 GPUsで構成され、GPUあたり1,800 GBps bidirectional NVLink bandwidthを提供すると説明される。
A4X Max sectionはfoundation model trainingとservingを明確なtargetにしている。docsは a4x-maxgpu-4g-metal bare-metal machine typeを示し、4つのB300 GPUsを搭載すると書く。さらにA4X MaxはNVL72 domainあたり最大20 TBのtotal GPU memory、GPUあたり約279 GB memoryを提供する。これはlarge context models、mixture-of-experts routing、multimodal training、dense inference fleetsをcloud上で比較するteamsにとって重要なsignalだ。
一方で、制約もheadline numberと同じくらい重要だ。docs tableでは、A4X MaxとA4Xは通常のon-demand、Spot、Flex-start resourceではなく、AI HypercomputerのFuture Reservations経由で使う形になっている。つまり50,000 GPUという数字は、すぐにself-serviceで確保するcapacityというより、大規模runを計画するcustomers向けのreserved infrastructureを示している。
次に見るべき点は、regionごとのavailability、reservation lead time、pricing、そして50,000 GPU ceilingが単一jobでどこまで使われるかだ。large domainでのreliability data、NCCL behavior、GKEやVertex AIとのintegrationが、scale numberを再現性のあるtraining throughputへ変えられるかを左右する。Source: Google Cloud Tech source tweet · Google Cloud A4X Max docs
Related Articles
Claudeの争点はモデル性能だけではなくなった。AnthropicはSeries Hで$65Bを調達し、post-money valuationは$965B、run-rate revenueは5月上旬に$47Bを超えたと明かした。
NVIDIA Veraはfull productionに入り、x86 CPU比でtask completionを1.8倍にすると説明された。OpenAI、Anthropic、SpaceXAI、ByteDance、CoreWeave、OCIなどが採用・評価先として挙がる。
Googleは第8世代TPUを学習用8tと推論用8iに分けた。8tはpod当たりnearly 3xの計算性能と121 exaflopsを、8iは19.2 Tb/sの相互接続と最大5x低いオンチップ遅延を掲げ、エージェント時代に学習とサービングの要件が完全に分かれたことを示している。