LLM Apr 25, 2026 1 min read
DeepMind의 새 DiLoCo 변형은 느린 learner 하나가 전체 사전학습을 붙잡는 문제를 겨냥한다. 논문 초록은 수백만 개 칩을 시뮬레이션한 장애 환경에서도 전역 다운타임 0과 경쟁력 있는 모델 성능을 함께 내세웠다.
DeepMind의 새 DiLoCo 변형은 느린 learner 하나가 전체 사전학습을 붙잡는 문제를 겨냥한다. 논문 초록은 수백만 개 칩을 시뮬레이션한 장애 환경에서도 전역 다운타임 0과 경쟁력 있는 모델 성능을 함께 내세웠다.