DeepMind 4개 지역 12B 분산 훈련, 동기식 병목을 20배 속도로 돌파
Original: This is Decoupled DiLoCo: our new resilient and flexible way to train advanced AI models across multiple data centres. View original →
Google DeepMind는 4월 23일 원문 스레드에서 Decoupled DiLoCo를 여러 데이터센터에 걸쳐 고급 AI 모델을 학습시키는 탄력적이고 유연한 방식으로 소개했다. 이 문제의 핵심은 모델 성능이 아니라 클러스터 동기화의 취약성이다. 칩 장애와 지역 간 네트워크 한계가 커질수록, 거대한 훈련 작업은 한 덩어리 슈퍼클러스터에 묶이기 쉽다. DeepMind는 그 가정을 정면으로 흔들었다.
공식 글에 나온 숫자는 더 직접적이다. Decoupled DiLoCo는 2-5Gbps 광역 네트워크 환경에서 미국 4개 지역에 걸쳐 12B Gemma 모델을 학습했고, 기존 동기화 방식보다 20배 넘게 빨랐다. 기계학습 성능도 크게 무너지지 않았다. 평균 정확도는 64.1%로 기준선 64.4%에 거의 붙었다. 대역폭을 크게 줄이면서도 학습 품질을 유지했다는 뜻이다.
장애 내성 수치도 강하다. DeepMind는 대규모 장애 시뮬레이션에서 goodput이 표준 데이터 병렬 훈련의 27% 대비 88%를 유지했다고 적었다. TPU v6e와 TPU v5p를 한 훈련에 섞어도 성능 저하 없이 돌아간다는 점도 중요하다. 완전히 같은 세대의 칩이 다 모일 때까지 기다리지 않고도 남는 자원을 훈련에 붙일 수 있다는 뜻이기 때문이다. 같은 그림에선 필요한 대역폭이 8개 데이터센터 기준 198Gbps에서 0.84Gbps까지 내려간다고도 제시된다. 작은 최적화가 아니라 훈련 인프라 정의 자체를 바꾸는 수치다.
GoogleDeepMind 계정은 연구 논문, 모델 성과, 인프라 전환점을 X에 올리는 패턴이 뚜렷하다. 이번 건은 그중에서도 인프라에 속한다. 이제 볼 것은 이 구조가 Gemma 연구 사례에 머무는지, 아니면 더 큰 실서비스 훈련으로 넘어가는지다. 데모 수치를 넘어 확장된다면, 최전선 연구소가 유휴 연산 자원과 칩 세대 혼합, 장애 허용성을 보는 방식 자체가 달라질 수 있다.
Related Articles
Anthropic는 2027년부터 가동될 multiple gigawatts 규모의 차세대 TPU capacity를 위해 Google과 Broadcom과 새 계약을 맺었다고 밝혔다. 회사는 이를 Claude 수요 급증과 enterprise 고객 확대에 대응하는 최대 compute 약속으로 규정했다.
Anthropic는 April 6, 2026에 Google과 Broadcom으로부터 2027 시작 예정인 next-generation TPU capacity를 multi-gigawatt 단위로 확보했다고 밝혔다. run-rate revenue가 $30 billion을 넘고 million-dollar customers가 February 이후 두 배로 늘어난 상황에서, 이번 계약은 infrastructure scale과 demand surge를 함께 보여준다.
Cerebras가 2024년 철회했던 IPO를 다시 추진한다. TechCrunch 보도에 따르면 회사는 2025 revenue $510M, 2025 adjusted basis net income $237.8M을 filing에 적었고, AWS 및 OpenAI 관련 대형 수요가 AI chip 시장의 Nvidia 의존을 흔드는 변수로 떠올랐다.
Comments (0)
No comments yet. Be the first to comment!