속도만 빠른 kernel은 연구 결과까지 오염시킬 수 있다는 사례가 올라왔다. 관심은 “verifier 통과”가 실제 training 안전성을 보장하지 못한다는 점에 모였다.
#training
RSS Feed상태를 들고 다니지 않는 optimizer라는 약속은 강했지만, r/MachineLearning 반응은 늘 그렇듯 명확했다. 업데이트 규칙을 보여주고, 시드를 늘리고, 더 어려운 과제로 오라는 요구다.
중요한 점은 model launch의 성패가 가중치보다 serving과 training 지원에서 갈린다는 데 있다. LMSYS는 Day-0 stack이 B200에서 199 tok/s, H200에서 266 tok/s를 기록했고 900K context에서도 흐름이 유지된다고 적었다.
GitHub는 April 24, 2026부터 Copilot Free, Pro, Pro+ 사용자의 상호작용 데이터를 사용자가 opt out하지 않는 한 AI 모델 학습과 개선에 활용하겠다고 밝혔다. Business와 Enterprise 플랜은 제외되지만, 개인 요금제 Copilot 사용 데이터가 모델 개발로 다시 흘러가는 범위는 크게 넓어진다.
2026년 3월 17일 r/MachineLearning에 올라온 Clip to Grok 글은 크롤링 시점 기준 56점과 20개 댓글을 기록했다. 작성자들은 optimizer step마다 decoder weight row를 L2 clipping하는 방식으로 modular arithmetic benchmark에서 18배에서 66배 빠른 generalization을 얻었다고 주장한다.
2026년 3월 19일 Hacker News에 올라온 NanoGPT Slowrun 글은 크롤링 시점 기준 162점과 43개 댓글을 기록했다. Q Labs는 100M token으로 학습한 1.8B parameter ensemble이 통상 1B token이 필요한 baseline과 맞먹는 성능을 냈다고 주장한다.
Q Labs는 100M tokens와 18B-parameter ensemble로 1B-token baseline에 맞먹는 결과를 냈다고 주장했고, Hacker News는 이 성과가 serving과 deployment에서도 유지될 수 있는지 따져 물었다.
SkyPilot는 Claude Code가 8시간 동안 약 910개의 autoresearch 실험을 돌렸다고 설명했고, Hacker News는 진짜 돌파구가 에이전트 전략인지 인프라인지, 혹은 둘 다인지에 주목했다.
Google은 AI Works for Europe를 발표하고 Google.org European AI Opportunity Fund에 $30 million을 추가 투입한다고 밝혔다. 이 initiative는 worker training, university partnership, ten European languages 기반 certificate rollout을 함께 묶는다.
2026년 3월 15일 r/MachineLearning에서는 preflight 소개 글이 56 points와 13 comments를 기록했다. 이 lightweight CLI는 PyTorch training 전에 label leakage, NaN, channel ordering, dead gradients, class imbalance, VRAM risk 등 10개 항목을 검사한다.
OpenAI CEO 샘 알트만이 AI 모델 학습에 드는 에너지 비용 비판에 대해 인간 교육의 에너지 비용과 비교하며 반박했다. 그는 인간도 지능을 갖추기까지 20년과 그 기간의 모든 음식 에너지가 필요하다고 말했다.
r/MachineLearning 인기 글에서 2025년 ML 대회 생태계를 정리했다. 작성자는 약 400개 대회를 추적하고 73개 우승 솔루션 정보를 수집했으며, Qwen 계열·vLLM·Unsloth·대규모 GPU 사용 증가 등을 핵심 변화로 제시했다.