DeepMindのDecoupled DiLoCo、障害で止まらない分散学習設計
Original: Decoupled DiLoCo: A new frontier for resilient, distributed AI training View original →
フロンティアモデルの学習は、最も弱いクラスタに全体が引きずられる。1カ所でチップ障害が起きると、巨大ジョブ全体が同期待ちになるからだ。Google DeepMindの発表で公開されたDecoupled DiLoCoは、その前提を崩しにきた。学習を複数のlearner unitに分け、完全同期ではなく非同期で更新を回す設計である。
数字はかなりはっきりしている。DeepMindは8データセンター構成で必要帯域が198 Gbpsから0.84 Gbpsへ下がると説明する。さらに、120万チップと高い故障率を想定したシミュレーションでは、standard data-parallel方式のgoodputが27%まで落ちる一方、Decoupled DiLoCoは88%を維持した。平均ML精度も64.1%で、baselineの64.4%にほぼ並んだ。
重要なのは、これが単なる理論図では終わっていない点だ。チームはchaos engineeringで人工的にハードウェア障害を入れ、learner unit全体が落ちる状況まで試したという。それでも残りの単位は学習を続け、復帰した単位は再びジョブへ戻った。高価な学習ランが1回の故障で止まりやすい従来型とは、運用思想がまったく違う。
実運用に近い主張も強い。DeepMindは米国4リージョンにまたがって120億パラメータのモデルを2-5 Gbpsの広域回線で学習し、従来の同期方式より20倍以上速く結果を出したと書いている。TPU v6eとTPU v5pのように世代の違うハードウェアを同じ学習ランへ混ぜても、ML性能は揃ったという。
このニュースの本質は、ネットワーク最適化の小改良ではない。Decoupled DiLoCoが本番規模でも機能するなら、別リージョンに眠る余剰計算資源や、世代が混在したチップ群、専用線を持たないデータセンターまでが学習インフラ候補になる。より大きなモデルを追う研究所にとって、計算資源の総量だけでなく、それを故障込みで束ねる設計が競争力そのものになる。
Related Articles
DeepMind의 새 DiLoCo 변형은 느린 learner 하나가 전체 사전학습을 붙잡는 문제를 겨냥한다. 논문 초록은 수백만 개 칩을 시뮬레이션한 장애 환경에서도 전역 다운타임 0과 경쟁력 있는 모델 성능을 함께 내세웠다.
Google이 I/O 2026에서 Gemini 3.5 Flash를 GA 출시했다. Gemini 3.1 Pro를 코딩·에이전트 벤치마크에서 능가하면서도 출력 속도는 4배 빠르고 비용은 40% 저렴하다.
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.