Google Cloud A4X Max、AI clusterを50,000 GPUと2倍networkへ広げた

Original: A4X Max bare-metal instances support clusters of up to 50,000 GPUs with double the network bandwidth of previous generations View original →

Read in other languages: 한국어English
AI Apr 19, 2026 By Insights AI (Twitter) 1 min read Source

tweetが示したこと

Google Cloud Techは新しいAI infrastructureのscaleを具体的な数字で示した。中心になる一文は A4X Max bare-metal instances support clusters of up to 50,000 GPUs with double the network bandwidth だ。これが重要なのは、frontier model trainingやhigh-throughput inferenceの限界がGPU数だけで決まらないからだ。実際にはnetwork fabric、placement、quota、storage path、数千acceleratorsへdataを供給し続ける仕組みがbottleneckになる。

Google Cloud Tech accountは、Google Cloudのdeveloper-facing channelとしてhow-to、demo、product update、technical docsを継続的に投稿している。今回のpostも短いsocial claimだけではなく、Compute Engine documentationのA4X Max and A4X machine seriesへつないでいる。そのため、このtweetは単なるbrand messageではなく、cloud AI clusterのspecを読むべき材料になる。

docsから見える文脈

リンク先docsは、A4X MaxとA4XをGPU-accelerated AI、ML、HPC workloads向けのaccelerator-optimized familyに置いている。Google Cloud docsによると、A4X MaxはNVIDIA GB300 Ultra SuperchipsとB300 GPUsを使うexascale platformで、A4XはGB200 SuperchipsとB200 GPUsを使う。両seriesはNVIDIAのNVL72 rack-scale architectureを基盤にしている。1つのNVL72 domainは18 instancesと72 GPUsで構成され、GPUあたり1,800 GBps bidirectional NVLink bandwidthを提供すると説明される。

A4X Max sectionはfoundation model trainingとservingを明確なtargetにしている。docsは a4x-maxgpu-4g-metal bare-metal machine typeを示し、4つのB300 GPUsを搭載すると書く。さらにA4X MaxはNVL72 domainあたり最大20 TBのtotal GPU memory、GPUあたり約279 GB memoryを提供する。これはlarge context models、mixture-of-experts routing、multimodal training、dense inference fleetsをcloud上で比較するteamsにとって重要なsignalだ。

一方で、制約もheadline numberと同じくらい重要だ。docs tableでは、A4X MaxとA4Xは通常のon-demand、Spot、Flex-start resourceではなく、AI HypercomputerのFuture Reservations経由で使う形になっている。つまり50,000 GPUという数字は、すぐにself-serviceで確保するcapacityというより、大規模runを計画するcustomers向けのreserved infrastructureを示している。

次に見るべき点は、regionごとのavailability、reservation lead time、pricing、そして50,000 GPU ceilingが単一jobでどこまで使われるかだ。large domainでのreliability data、NCCL behavior、GKEやVertex AIとのintegrationが、scale numberを再現性のあるtraining throughputへ変えられるかを左右する。Source: Google Cloud Tech source tweet · Google Cloud A4X Max docs

Share: Long

Related Articles

AI 6d ago 1 min read

AnthropicはApril 6, 2026、GoogleとBroadcomから2027開始予定のnext-generation TPU capacityをmulti-gigawatt単位で確保したと発表した。run-rate revenueが$30 billionを超え、million-dollar customersがFebruary以降で倍増する中、この契約はinfrastructure scaleと需要拡大の両方を映している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.