DeepMind 4개 지역 12B 분산 훈련, 동기식 병목을 20배 속도로 돌파

Google DeepMind는 4월 23일 원문 스레드에서 Decoupled DiLoCo를 여러 데이터센터에 걸쳐 고급 AI 모델을 학습시키는 탄력적이고 유연한 방식으로 소개했다. 이 문제의 핵심은 모델 성능이 아니라 클러스터 동기화의 취약성이다. 칩 장애와 지역 간 네트워크 한계가 커질수록, 거대한 훈련 작업은 한 덩어리 슈퍼클러스터에 묶이기 쉽다. DeepMind는 그 가정을 정면으로 흔들었다.

공식 글에 나온 숫자는 더 직접적이다. Decoupled DiLoCo는 2-5Gbps 광역 네트워크 환경에서 미국 4개 지역에 걸쳐 12B Gemma 모델을 학습했고, 기존 동기화 방식보다 20배 넘게 빨랐다. 기계학습 성능도 크게 무너지지 않았다. 평균 정확도는 64.1%로 기준선 64.4%에 거의 붙었다. 대역폭을 크게 줄이면서도 학습 품질을 유지했다는 뜻이다.

장애 내성 수치도 강하다. DeepMind는 대규모 장애 시뮬레이션에서 goodput이 표준 데이터 병렬 훈련의 27% 대비 88%를 유지했다고 적었다. TPU v6e와 TPU v5p를 한 훈련에 섞어도 성능 저하 없이 돌아간다는 점도 중요하다. 완전히 같은 세대의 칩이 다 모일 때까지 기다리지 않고도 남는 자원을 훈련에 붙일 수 있다는 뜻이기 때문이다. 같은 그림에선 필요한 대역폭이 8개 데이터센터 기준 198Gbps에서 0.84Gbps까지 내려간다고도 제시된다. 작은 최적화가 아니라 훈련 인프라 정의 자체를 바꾸는 수치다.

GoogleDeepMind 계정은 연구 논문, 모델 성과, 인프라 전환점을 X에 올리는 패턴이 뚜렷하다. 이번 건은 그중에서도 인프라에 속한다. 이제 볼 것은 이 구조가 Gemma 연구 사례에 머무는지, 아니면 더 큰 실서비스 훈련으로 넘어가는지다. 데모 수치를 넘어 확장된다면, 최전선 연구소가 유휴 연산 자원과 칩 세대 혼합, 장애 허용성을 보는 방식 자체가 달라질 수 있다.

DeepMind 4개 지역 12B 분산 훈련, 동기식 병목을 20배 속도로 돌파

Related Articles

Anthropic, Google·Broadcom과 multi-gigawatt TPU 계약 체결

Anthropic, Google·Broadcom과 multi-gigawatt TPU 계약 체결

Cerebras, IPO 재도전 본격화: OpenAI·AWS 수요가 AI chip 판 흔든다

Comments (0)

Leave a Comment

Related Articles

Anthropic, Google·Broadcom과 multi-gigawatt TPU 계약 체결
AI Apr 11, 2026 1 min read

Anthropic, Google·Broadcom과 multi-gigawatt TPU 계약 체결
AI Apr 13, 2026 1 min read

Cerebras, IPO 재도전 본격화: OpenAI·AWS 수요가 AI chip 판 흔든다