DeepMindのDecoupled DiLoCo、障害で止まらない分散学習設計

フロンティアモデルの学習は、最も弱いクラスタに全体が引きずられる。1カ所でチップ障害が起きると、巨大ジョブ全体が同期待ちになるからだ。Google DeepMindの発表で公開されたDecoupled DiLoCoは、その前提を崩しにきた。学習を複数のlearner unitに分け、完全同期ではなく非同期で更新を回す設計である。

数字はかなりはっきりしている。DeepMindは8データセンター構成で必要帯域が198 Gbpsから0.84 Gbpsへ下がると説明する。さらに、120万チップと高い故障率を想定したシミュレーションでは、standard data-parallel方式のgoodputが27%まで落ちる一方、Decoupled DiLoCoは88%を維持した。平均ML精度も64.1%で、baselineの64.4%にほぼ並んだ。

重要なのは、これが単なる理論図では終わっていない点だ。チームはchaos engineeringで人工的にハードウェア障害を入れ、learner unit全体が落ちる状況まで試したという。それでも残りの単位は学習を続け、復帰した単位は再びジョブへ戻った。高価な学習ランが1回の故障で止まりやすい従来型とは、運用思想がまったく違う。

実運用に近い主張も強い。DeepMindは米国4リージョンにまたがって120億パラメータのモデルを2-5 Gbpsの広域回線で学習し、従来の同期方式より20倍以上速く結果を出したと書いている。TPU v6eとTPU v5pのように世代の違うハードウェアを同じ学習ランへ混ぜても、ML性能は揃ったという。

このニュースの本質は、ネットワーク最適化の小改良ではない。Decoupled DiLoCoが本番規模でも機能するなら、別リージョンに眠る余剰計算資源や、世代が混在したチップ群、専用線を持たないデータセンターまでが学習インフラ候補になる。より大きなモデルを追う研究所にとって、計算資源の総量だけでなく、それを故障込みで束ねる設計が競争力そのものになる。

DeepMindのDecoupled DiLoCo、障害で止まらない分散学習設計

Related Articles

Google I/O 2026：Gemini 3.5 Flash登場 — フラッグシップ性能をFlash速度で実現

Nemotron 3 Ultra、550B MoEでエージェント推論5倍と30%コスト削減を提示

Gemma 4 12B、encoder-free multimodal設計でローカルAI議論の中心へ