DeepMind、4地域で12B訓練 同期型より20倍速い分散学習へ
Original: This is Decoupled DiLoCo: our new resilient and flexible way to train advanced AI models across multiple data centres. View original →
Google DeepMindは4月23日の 元スレッド で、Decoupled DiLoCoを複数データセンターにまたがって高度なAIモデルを訓練するための、強靭で柔軟な方式として示した。焦点はモデル品質そのものではない。巨大クラスタを障害や地域間ネットワーク制約の中で同期し続けることの脆さにある。DeepMindはその前提を崩しに来た。
公式ブログの数字はかなり具体的だ。Decoupled DiLoCoは2-5Gbpsの広域ネットワーク上で、米国4地域に分散した12B Gemmaモデルを学習し、従来の同期方式より20倍超高速だったという。学習品質も大きく落ちていない。平均精度は64.1%で、基準線64.4%にほぼ並ぶ。帯域を大きく削りながら精度を維持したことになる。
障害耐性の数字も重い。DeepMindは大規模障害のシミュレーションで、goodputが標準的なデータ並列学習の27%に対して88%を維持したとする。さらにTPU v6eとTPU v5pを同一学習に混在させても性能低下なく動かせるという。完全にそろった新世代クラスタを待たず、部分的に更新された計算資源を使えることを意味する。同じ図では、必要帯域が8データセンター構成で198Gbpsから0.84Gbpsまで下がるとも示されている。これは小さな最適化ではなく、使える学習インフラの定義を変える数字だ。
GoogleDeepMindのXアカウントは研究論文、モデル成果、インフラの節目を示す用途が多く、今回も明らかにインフラ寄りの投稿である。次に見るべきは、これがGemma級の研究成果にとどまるのか、それともさらに大きい本番学習へ入っていくのかだ。デモを超えて拡張されれば、最前線の研究所が遊休計算資源、異種チップ、障害許容性を考えるやり方そのものが変わる可能性がある。
Related Articles
Anthropic は、2027年から順次稼働する multiple gigawatts 規模の次世代 TPU capacity について Google と Broadcom と新たな契約を結んだと発表した。Claude 需要の急増と enterprise 顧客の拡大を受けた、同社最大の compute 投資だとしている。
Cerebrasが2024年に取り下げたIPOへ再び動いた。TechCrunchによると、2025 revenueは$510Mで、AWS data centersや$10B超と報じられたOpenAI dealが、Nvidia依存のAI compute市場に新しい試金石を作っている。
AnthropicはApril 6, 2026、GoogleとBroadcomから2027開始予定のnext-generation TPU capacityをmulti-gigawatt単位で確保したと発表した。run-rate revenueが$30 billionを超え、million-dollar customersがFebruary以降で倍増する中、この契約はinfrastructure scaleと需要拡大の両方を映している。
Comments (0)
No comments yet. Be the first to comment!