DeepMind의 새 DiLoCo 변형은 느린 learner 하나가 전체 사전학습을 붙잡는 문제를 겨냥한다. 논문 초록은 수백만 개 칩을 시뮬레이션한 장애 환경에서도 전역 다운타임 0과 경쟁력 있는 모델 성능을 함께 내세웠다.
#llm-training
RSS FeedMegaTrain은 parameters와 optimizer states를 host memory에 두고 layer를 GPU로 streaming하는 방식으로, 단일 GPU에서 100B+ 파라미터 LLM의 full precision 학습을 겨냥한다. 최근 Hacker News에서 이 논문이 주목받은 이유는 training bottleneck을 GPU 수량이 아니라 memory system 설계 문제로 다시 정의하기 때문이다.
LocalLLaMA 게시글은 Hugging Face의 새 인간 코드 리뷰 데이터셋을 조명했다. inline reviewer comment, 코드 수정 전후, 그리고 negative example을 37개 언어에 걸쳐 묶은 구성이 특징이다.
Andrej Karpathy가 축소형 nanochat training loop를 AI agent가 overnight로 반복 실험할 수 있게 하는 autoresearch repo를 공개했다. 고정 5분 실험, Git branch, validation loss 기반 선택을 묶어 agent 연구를 closed-loop workflow로 바꾸려는 시도다.
2026년 3월 4일 HN에서 Q Labs의 Slowrun 벤치마크가 주목을 받았다. 100M FineWeb tokens를 고정한 채 compute를 활용해 data efficiency를 끌어올리는 접근이 핵심이다.
r/singularity 고반응 게시물은 arXiv 2602.15322를 공유했다. 논문은 masked adaptive update와 Magma 기법이 1B 모델 설정에서 Adam·Muon 대비 perplexity를 개선하면서 오버헤드는 작다고 보고한다.