Skip to content

#distributed-training

RSS Feed
AI X/Twitter Apr 25, 2026 1 min read

Google DeepMind의 새 훈련 구조가 중요한 이유는 데이터센터 경계 자체가 최전선 병목이 되고 있기 때문이다. Decoupled DiLoCo는 2-5Gbps 광역 링크 위에서 4개 미국 지역에 걸쳐 12B Gemma 모델을 학습했고, 기존 동기화 방식보다 20배 넘게 빠르면서 평균 정확도는 64.1%로 기준선 64.4%에 거의 붙었다.