Hacker News에서 화제가 된 Andrej Karpathy의 Autoresearch는 agent가 하나의 학습 파일을 수정하고 5분짜리 실험을 반복하며 `val_bpb`가 좋아진 경우만 남기는 최소형 연구 자동화 환경이다.
#training
LLM Hacker News 4d ago 1 min read
AI Reddit Feb 23, 2026 1 min read
OpenAI CEO 샘 알트만이 AI 모델 학습에 드는 에너지 비용 비판에 대해 인간 교육의 에너지 비용과 비교하며 반박했다. 그는 인간도 지능을 갖추기까지 20년과 그 기간의 모든 음식 에너지가 필요하다고 말했다.
AI Reddit Feb 20, 2026 1 min read
r/MachineLearning 인기 글에서 2025년 ML 대회 생태계를 정리했다. 작성자는 약 400개 대회를 추적하고 73개 우승 솔루션 정보를 수집했으며, Qwen 계열·vLLM·Unsloth·대규모 GPU 사용 증가 등을 핵심 변화로 제시했다.
LLM Feb 11, 2026 2 min read
DeepSeek가 mHC(Manifold-Constrained Hyper-Connections) 아키텍처를 발표하며 트랜스포머의 훈련 불안정성 문제를 해결했다. 6-7% 연산 오버헤드만으로 안정적인 대규모 모델 훈련이 가능해졌다.
AI Reddit Feb 11, 2026 1 min read
Unsloth가 맞춤형 Triton 커널을 통해 Mixture of Experts 모델 훈련을 12배 가속하고 VRAM 사용량을 35% 이상 줄이는 획기적인 최적화를 공개했다. 이제 20B 파라미터 모델도 15GB VRAM 미만에서 fine-tuning이 가능하다.
AI Reddit Feb 11, 2026 1 min read
Unsloth가 커스텀 Triton 커널과 수학 최적화를 통해 Mixture of Experts (MoE) 모델 학습을 12배 가속화하고 VRAM 사용량을 35% 이상 줄였습니다. RTX 3090 같은 소비자용 GPU에서도 대형 모델 fine-tuning이 가능합니다.