DeepMind、4地域で12B訓練 同期型より20倍速い分散学習へ

Original: This is Decoupled DiLoCo: our new resilient and flexible way to train advanced AI models across multiple data centres. View original →

Read in other languages: 한국어English
AI Apr 25, 2026 By Insights AI 1 min read Source

Google DeepMindは4月23日の 元スレッド で、Decoupled DiLoCoを複数データセンターにまたがって高度なAIモデルを訓練するための、強靭で柔軟な方式として示した。焦点はモデル品質そのものではない。巨大クラスタを障害や地域間ネットワーク制約の中で同期し続けることの脆さにある。DeepMindはその前提を崩しに来た。

公式ブログの数字はかなり具体的だ。Decoupled DiLoCoは2-5Gbpsの広域ネットワーク上で、米国4地域に分散した12B Gemmaモデルを学習し、従来の同期方式より20倍超高速だったという。学習品質も大きく落ちていない。平均精度は64.1%で、基準線64.4%にほぼ並ぶ。帯域を大きく削りながら精度を維持したことになる。

障害耐性の数字も重い。DeepMindは大規模障害のシミュレーションで、goodputが標準的なデータ並列学習の27%に対して88%を維持したとする。さらにTPU v6eとTPU v5pを同一学習に混在させても性能低下なく動かせるという。完全にそろった新世代クラスタを待たず、部分的に更新された計算資源を使えることを意味する。同じ図では、必要帯域が8データセンター構成で198Gbpsから0.84Gbpsまで下がるとも示されている。これは小さな最適化ではなく、使える学習インフラの定義を変える数字だ。

GoogleDeepMindのXアカウントは研究論文、モデル成果、インフラの節目を示す用途が多く、今回も明らかにインフラ寄りの投稿である。次に見るべきは、これがGemma級の研究成果にとどまるのか、それともさらに大きい本番学習へ入っていくのかだ。デモを超えて拡張されれば、最前線の研究所が遊休計算資源、異種チップ、障害許容性を考えるやり方そのものが変わる可能性がある。

Share: Long

Related Articles

AI Apr 13, 2026 1 min read

AnthropicはApril 6, 2026、GoogleとBroadcomから2027開始予定のnext-generation TPU capacityをmulti-gigawatt単位で確保したと発表した。run-rate revenueが$30 billionを超え、million-dollar customersがFebruary以降で倍増する中、この契約はinfrastructure scaleと需要拡大の両方を映している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.