중요한 점은 AI infrastructure 경쟁이 단일 GPU rental이 아니라 supercomputer급 managed cluster로 이동하고 있다는 데 있다. Google Cloud는 A4X Max bare-metal instance가 최대 50,000 GPU cluster와 이전 세대 대비 2배 network bandwidth를 지원한다고 적었다.
#gpus
RSS FeedAWS는 2026년 3월 16일 NVIDIA와의 협력을 chip과 networking을 넘어 software, data movement, Amazon Bedrock model service까지 확대한다고 밝혔다. 양사는 2026년부터 AWS region 전반에 1 million개가 넘는 GPU를 제공하고 Blackwell, Nemotron, NIXL integration을 production AI workload에 맞춰 확장할 계획이다.
NVIDIA는 KubeCon Europe에서 GPU Dynamic Resource Allocation driver를 CNCF와 upstream Kubernetes ecosystem으로 넘긴다고 밝혔다. 이번 발표는 confidential containers, KAI Scheduler, Grove API까지 묶어 대규모 AI cluster 운영 표준을 넓히려는 시도로 읽힌다.
SkyPilot는 Claude Code가 8시간 동안 약 910개의 autoresearch 실험을 돌렸다고 설명했고, Hacker News는 진짜 돌파구가 에이전트 전략인지 인프라인지, 혹은 둘 다인지에 주목했다.
Meta는 AMD와의 장기 계약을 통해 최대 6GW 규모의 AMD Instinct GPU 용량을 확보한다고 밝혔다. 첫 출하는 2026년 하반기 Helios rack-scale 시스템에서 시작될 예정이다.
Meta가 AMD와 최대 6GW 규모의 Instinct GPU 도입을 포함한 장기 계약을 발표했습니다. 양사는 실리콘·시스템·소프트웨어 로드맵 정렬과 Helios 랙 아키텍처 기반 배치를 통해 대규모 AI 인프라를 확장할 계획입니다.