DeepMind Decoupled DiLoCo, 장애 나도 멈추지 않는 분산 학습 설계
Original: Decoupled DiLoCo: A new frontier for resilient, distributed AI training View original →
프런티어 모델 학습은 가장 약한 클러스터에서 멈칫한다. 한 지역의 칩이 느려지거나 고장 나면 전체 작업이 동기화를 기다려야 하기 때문이다. Google DeepMind 글에서 공개한 Decoupled DiLoCo는 이 병목을 정면으로 건드린다. 학습을 여러 학습 단위로 나누고, 각 단위가 완전한 보조를 맞추기보다 비동기적으로 업데이트를 주고받게 만든 구조다.
핵심 숫자는 크다. DeepMind는 8개 데이터센터 구성에서 필요한 대역폭이 198 Gbps에서 0.84 Gbps로 내려간다고 적었다. 120만 개 칩과 높은 장애율을 가정한 시뮬레이션에서는 goodput이 기존 data-parallel 방식의 27% 대신 88%를 기록했고, 평균 ML 정확도는 64.1%로 baseline 64.4%에 거의 붙었다.
운영 측면의 메시지는 더 직접적이다. 팀은 chaos engineering 방식으로 학습 도중 인위적인 하드웨어 장애를 넣었고, 학습 단위 전체가 빠지는 상황에서도 나머지 단위가 계속 학습을 이어갔다고 설명했다. 복구된 단위는 다시 학습에 합류했다. 값비싼 학습 job 하나가 장애 한 번에 멈추는 기존 구조와는 결이 다르다.
실험은 개념 검증 수준에 머물지 않았다. DeepMind는 미국 4개 리전에서 120억 파라미터 모델을 2-5 Gbps 광역망으로 학습했고, 기존 동기화 방식보다 20배 이상 빠르게 결과를 냈다고 밝혔다. TPU v6e와 TPU v5p처럼 세대가 다른 하드웨어를 한 번의 학습에 섞어도 ML 성능이 맞춰졌다는 대목도 중요하다.
의미는 네트워크 최적화 이상의 변화다. Decoupled DiLoCo가 생산 환경에서도 버티면, 다른 리전에 남아 있는 유휴 연산 자원과 세대가 섞인 하드웨어 묶음, 맞춤형 전용망이 없는 데이터센터까지 학습 인프라로 편입된다. 더 큰 모델을 노리는 연구소와 클라우드 사업자 입장에선, 계산 자원이 어디 있느냐보다 그것을 끊기지 않게 묶는 방법이 더 중요해진다.
Related Articles
Google DeepMind는 X에서 Gemma 4를 공개하며 자체 하드웨어에서 돌릴 수 있는 오픈 모델 계열이라고 소개했다. 2026년 4월 2일 Developers Blog 글은 Gemma 4가 on-device agentic workflow, 140개 이상 언어 지원, LiteRT-LM 기반 배포 경로를 함께 제공한다고 설명한다.
r/artificial의 한 게시물은 Google DeepMind의 Gemma 4 공개를 가리켰고, 이 모델은 Apache 2.0 아래에서 advanced reasoning과 agentic feature를 묶어 제공한다. Google은 네 가지 크기의 family, larger model 기준 최대 256K context, 그리고 Hugging Face부터 llama.cpp까지 이어지는 day-one ecosystem support를 강조했다.
왜 중요한가: 장시간 실행되는 agent는 모든 메시지를 다시 넣지 않고도 이전 상태를 기억해야 한다. Cloudflare는 private beta로 공개한 Agent Memory가 context window를 채우지 않으면서 필요한 정보를 다시 제공한다고 설명했다.
Comments (0)
No comments yet. Be the first to comment!