#llm-training

LLM Apr 25, 2026 1 min read

LLM 학습, 전역 다운타임 0으로? DeepMind DiLoCo의 승부수

DeepMind의 새 DiLoCo 변형은 느린 learner 하나가 전체 사전학습을 붙잡는 문제를 겨냥한다. 논문 초록은 수백만 개 칩을 시뮬레이션한 장애 환경에서도 전역 다운타임 0과 경쟁력 있는 모델 성능을 함께 내세웠다.

#google-deepmind #diloco #llm-training

LLM Hacker News Apr 8, 2026 1 min read

MegaTrain, 단일 GPU에서 100B+ 파라미터 LLM 풀프리시전 학습을 노린 HN 화제 논문

MegaTrain은 parameters와 optimizer states를 host memory에 두고 layer를 GPU로 streaming하는 방식으로, 단일 GPU에서 100B+ 파라미터 LLM의 full precision 학습을 겨냥한다. 최근 Hacker News에서 이 논문이 주목받은 이유는 training bottleneck을 GPU 수량이 아니라 memory system 설계 문제로 다시 정의하기 때문이다.

#llm-training #systems #gpu

LLM Reddit Mar 10, 2026 2 min read

LocalLLaMA가 주목한 35만6천 행 규모 인간 코드 리뷰 데이터셋

LocalLLaMA 게시글은 Hugging Face의 새 인간 코드 리뷰 데이터셋을 조명했다. inline reviewer comment, 코드 수정 전후, 그리고 negative example을 37개 언어에 걸쳐 묶은 구성이 특징이다.

#code-review #datasets #github

LLM X/Twitter Mar 9, 2026 1 min read

Karpathy, 단일 GPU nanochat 실험을 자동화하는 autoresearch 공개

Andrej Karpathy가 축소형 nanochat training loop를 AI agent가 overnight로 반복 실험할 수 있게 하는 autoresearch repo를 공개했다. 고정 5분 실험, Git branch, validation loss 기반 선택을 묶어 agent 연구를 closed-loop workflow로 바꾸려는 시도다.

#karpathy #agents #open-source

LLM Hacker News Mar 5, 2026 1 min read

NanoGPT Slowrun 토론 확산, 고정 데이터 조건의 LLM 학습 효율 실험 주목

2026년 3월 4일 HN에서 Q Labs의 Slowrun 벤치마크가 주목을 받았다. 100M FineWeb tokens를 고정한 채 compute를 활용해 data efficiency를 끌어올리는 접근이 핵심이다.

#nanogpt #data-efficiency #llm-training

LLM Reddit Feb 21, 2026 1 min read

Reddit 화제: arXiv 2602.15322가 제시한 Magma, LLM 사전학습 옵티마이저 업데이트 마스킹 접근

r/singularity 고반응 게시물은 arXiv 2602.15322를 공유했다. 논문은 masked adaptive update와 Magma 기법이 1B 모델 설정에서 Adam·Muon 대비 perplexity를 개선하면서 오버헤드는 작다고 보고한다.

#llm-training #optimizers #rmsprop