DeepMindのDecoupled DiLoCo、障害で止まらない分散学習設計

フロンティアモデルの学習は、最も弱いクラスタに全体が引きずられる。1カ所でチップ障害が起きると、巨大ジョブ全体が同期待ちになるからだ。Google DeepMindの発表で公開されたDecoupled DiLoCoは、その前提を崩しにきた。学習を複数のlearner unitに分け、完全同期ではなく非同期で更新を回す設計である。

数字はかなりはっきりしている。DeepMindは8データセンター構成で必要帯域が198 Gbpsから0.84 Gbpsへ下がると説明する。さらに、120万チップと高い故障率を想定したシミュレーションでは、standard data-parallel方式のgoodputが27%まで落ちる一方、Decoupled DiLoCoは88%を維持した。平均ML精度も64.1%で、baselineの64.4%にほぼ並んだ。

重要なのは、これが単なる理論図では終わっていない点だ。チームはchaos engineeringで人工的にハードウェア障害を入れ、learner unit全体が落ちる状況まで試したという。それでも残りの単位は学習を続け、復帰した単位は再びジョブへ戻った。高価な学習ランが1回の故障で止まりやすい従来型とは、運用思想がまったく違う。

実運用に近い主張も強い。DeepMindは米国4リージョンにまたがって120億パラメータのモデルを2-5 Gbpsの広域回線で学習し、従来の同期方式より20倍以上速く結果を出したと書いている。TPU v6eとTPU v5pのように世代の違うハードウェアを同じ学習ランへ混ぜても、ML性能は揃ったという。

このニュースの本質は、ネットワーク最適化の小改良ではない。Decoupled DiLoCoが本番規模でも機能するなら、別リージョンに眠る余剰計算資源や、世代が混在したチップ群、専用線を持たないデータセンターまでが学習インフラ候補になる。より大きなモデルを追う研究所にとって、計算資源の総量だけでなく、それを故障込みで束ねる設計が競争力そのものになる。

DeepMindのDecoupled DiLoCo、障害で止まらない分散学習設計

Related Articles

Google DeepMind、低遅延voice・vision agent向けGemini 3.1 Flash Liveを公開

Google DeepMind、Gemma 4の初週10M downloadsを公表

Cloudflareのagent inference layer、HNは配管として見た

Comments (0)

Leave a Comment

Related Articles

Google DeepMind、低遅延voice・vision agent向けGemini 3.1 Flash Liveを公開
LLM sources.twitter Mar 26, 2026 1 min read

Google DeepMind、Gemma 4の初週10M downloadsを公表
LLM sources.twitter Apr 9, 2026 1 min read

Cloudflareのagent inference layer、HNは配管として見た