DeepMind Decoupled DiLoCo, 장애 나도 멈추지 않는 분산 학습 설계

프런티어 모델 학습은 가장 약한 클러스터에서 멈칫한다. 한 지역의 칩이 느려지거나 고장 나면 전체 작업이 동기화를 기다려야 하기 때문이다. Google DeepMind 글에서 공개한 Decoupled DiLoCo는 이 병목을 정면으로 건드린다. 학습을 여러 학습 단위로 나누고, 각 단위가 완전한 보조를 맞추기보다 비동기적으로 업데이트를 주고받게 만든 구조다.

핵심 숫자는 크다. DeepMind는 8개 데이터센터 구성에서 필요한 대역폭이 198 Gbps에서 0.84 Gbps로 내려간다고 적었다. 120만 개 칩과 높은 장애율을 가정한 시뮬레이션에서는 goodput이 기존 data-parallel 방식의 27% 대신 88%를 기록했고, 평균 ML 정확도는 64.1%로 baseline 64.4%에 거의 붙었다.

운영 측면의 메시지는 더 직접적이다. 팀은 chaos engineering 방식으로 학습 도중 인위적인 하드웨어 장애를 넣었고, 학습 단위 전체가 빠지는 상황에서도 나머지 단위가 계속 학습을 이어갔다고 설명했다. 복구된 단위는 다시 학습에 합류했다. 값비싼 학습 job 하나가 장애 한 번에 멈추는 기존 구조와는 결이 다르다.

실험은 개념 검증 수준에 머물지 않았다. DeepMind는 미국 4개 리전에서 120억 파라미터 모델을 2-5 Gbps 광역망으로 학습했고, 기존 동기화 방식보다 20배 이상 빠르게 결과를 냈다고 밝혔다. TPU v6e와 TPU v5p처럼 세대가 다른 하드웨어를 한 번의 학습에 섞어도 ML 성능이 맞춰졌다는 대목도 중요하다.

의미는 네트워크 최적화 이상의 변화다. Decoupled DiLoCo가 생산 환경에서도 버티면, 다른 리전에 남아 있는 유휴 연산 자원과 세대가 섞인 하드웨어 묶음, 맞춤형 전용망이 없는 데이터센터까지 학습 인프라로 편입된다. 더 큰 모델을 노리는 연구소와 클라우드 사업자 입장에선, 계산 자원이 어디 있느냐보다 그것을 끊기지 않게 묶는 방법이 더 중요해진다.

DeepMind Decoupled DiLoCo, 장애 나도 멈추지 않는 분산 학습 설계

Related Articles

Google DeepMind, Apache 2.0 기반 Gemma 4 공개

r/artificial가 주목한 Gemma 4, Google의 open-weight 확대 전략

Cloudflare Agent Memory, agent 대화 기억을 context window 밖에서 관리

Comments (0)

Leave a Comment

Related Articles

Google DeepMind, Apache 2.0 기반 Gemma 4 공개
LLM sources.x Apr 9, 2026 1 min read

r/artificial가 주목한 Gemma 4, Google의 open-weight 확대 전략
LLM Reddit Apr 4, 2026 1 min read

Cloudflare Agent Memory, agent 대화 기억을 context window 밖에서 관리