DeepMindのDecoupled DiLoCo、障害で止まらない分散学習設計
Original: Decoupled DiLoCo: A new frontier for resilient, distributed AI training View original →
フロンティアモデルの学習は、最も弱いクラスタに全体が引きずられる。1カ所でチップ障害が起きると、巨大ジョブ全体が同期待ちになるからだ。Google DeepMindの発表で公開されたDecoupled DiLoCoは、その前提を崩しにきた。学習を複数のlearner unitに分け、完全同期ではなく非同期で更新を回す設計である。
数字はかなりはっきりしている。DeepMindは8データセンター構成で必要帯域が198 Gbpsから0.84 Gbpsへ下がると説明する。さらに、120万チップと高い故障率を想定したシミュレーションでは、standard data-parallel方式のgoodputが27%まで落ちる一方、Decoupled DiLoCoは88%を維持した。平均ML精度も64.1%で、baselineの64.4%にほぼ並んだ。
重要なのは、これが単なる理論図では終わっていない点だ。チームはchaos engineeringで人工的にハードウェア障害を入れ、learner unit全体が落ちる状況まで試したという。それでも残りの単位は学習を続け、復帰した単位は再びジョブへ戻った。高価な学習ランが1回の故障で止まりやすい従来型とは、運用思想がまったく違う。
実運用に近い主張も強い。DeepMindは米国4リージョンにまたがって120億パラメータのモデルを2-5 Gbpsの広域回線で学習し、従来の同期方式より20倍以上速く結果を出したと書いている。TPU v6eとTPU v5pのように世代の違うハードウェアを同じ学習ランへ混ぜても、ML性能は揃ったという。
このニュースの本質は、ネットワーク最適化の小改良ではない。Decoupled DiLoCoが本番規模でも機能するなら、別リージョンに眠る余剰計算資源や、世代が混在したチップ群、専用線を持たないデータセンターまでが学習インフラ候補になる。より大きなモデルを追う研究所にとって、計算資源の総量だけでなく、それを故障込みで束ねる設計が競争力そのものになる。
Related Articles
Google DeepMindは2026年3月26日、Gemini 3.1 Flash LiveがGoogle AI StudioのLive APIでpreview提供されると発表した。Googleブログによれば、このモデルはリアルタイムvoice・vision agent向けで、noisy環境でのtool triggeringを改善し、90超の言語でmultimodal会話を扱える。
Google DeepMindは2026年4月9日にXで、Gemma 4が初週で10M downloadsを超え、Gemma family全体では500M downloadsを突破したと発表した。GoogleはGemma 4をreasoning、agentic workflows、ローカルhardware deployment向けのopen model familyとして位置づけている。
HNが見ていたのは「CloudflareがAIをやる」という話ではなく、14以上のproviderを束ねるinference layerがagent appの運用を本当に楽にするかだった。CloudflareはAI Gateway、Workers AI bindings、multimodal catalogを一つのplatformとして描き、コメント欄はOpenRouterとの差、pricingの正確さ、catalogの重なりを詰めた。
Comments (0)
No comments yet. Be the first to comment!