#training

RSS 피드

LLM Reddit May 28, 2026 1 min read

AI 생성 CUDA kernel, benchmark 통과 뒤 training을 망가뜨린 bf16 함정

속도만 빠른 kernel은 연구 결과까지 오염시킬 수 있다는 사례가 올라왔다. 관심은 “verifier 통과”가 실제 training 안전성을 보장하지 못한다는 점에 모였다.

#cuda #kernels #benchmarking

AI Reddit Apr 26, 2026 1 min read

저VRAM optimizer 'Rose', r/MachineLearning이 먼저 꺼낸 건 실험 설계

상태를 들고 다니지 않는 optimizer라는 약속은 강했지만, r/MachineLearning 반응은 늘 그렇듯 명확했다. 업데이트 규칙을 보여주고, 시드를 늘리고, 더 어려운 과제로 오라는 요구다.

#optimizer #pytorch #training

AI X/Twitter Apr 25, 2026 1 min read

LMSYS, DeepSeek-V4 Day-0 지원에서 H200 266 tok/s 성능을 제시

중요한 점은 model launch의 성패가 가중치보다 serving과 training 지원에서 갈린다는 데 있다. LMSYS는 Day-0 stack이 B200에서 199 tok/s, H200에서 266 tok/s를 기록했고 900K context에서도 흐름이 유지된다고 적었다.

#lmsys #deepseek #benchmarks

LLM Apr 11, 2026 1 min read

GitHub, Copilot 상호작용 데이터를 기본적으로 모델 학습에 활용

GitHub는 April 24, 2026부터 Copilot Free, Pro, Pro+ 사용자의 상호작용 데이터를 사용자가 opt out하지 않는 한 AI 모델 학습과 개선에 활용하겠다고 밝혔다. Business와 Enterprise 플랜은 제외되지만, 개인 요금제 Copilot 사용 데이터가 모델 개발로 다시 흘러가는 범위는 크게 넓어진다.

#github #copilot #privacy

AI Reddit Mar 20, 2026 1 min read

r/MachineLearning, Clip to Grok 실험 주목... 단순한 weight norm clipping으로 grokking 지연 단축 주장

2026년 3월 17일 r/MachineLearning에 올라온 Clip to Grok 글은 크롤링 시점 기준 56점과 20개 댓글을 기록했다. 작성자들은 optimizer step마다 decoder weight row를 L2 clipping하는 방식으로 modular arithmetic benchmark에서 18배에서 66배 빠른 generalization을 얻었다고 주장한다.

#grokking #optimization #transformers

AI Hacker News Mar 20, 2026 1 min read

Hacker News, NanoGPT Slowrun의 데이터 효율 10배 주장 주시... 고정 데이터 시대의 새 실험

2026년 3월 19일 Hacker News에 올라온 NanoGPT Slowrun 글은 크롤링 시점 기준 162점과 43개 댓글을 기록했다. Q Labs는 100M token으로 학습한 1.8B parameter ensemble이 통상 1B token이 필요한 baseline과 맞먹는 성능을 냈다고 주장한다.

#language-models #data-efficiency #ensembles

LLM Hacker News Mar 20, 2026 2 min read

Hacker News가 본 NanoGPT Slowrun의 10x 데이터 효율 주장

Q Labs는 100M tokens와 18B-parameter ensemble로 1B-token baseline에 맞먹는 결과를 냈다고 주장했고, Hacker News는 이 성과가 serving과 deployment에서도 유지될 수 있는지 따져 물었다.

#llm #training #scaling-laws

LLM Hacker News Mar 20, 2026 2 min read

Hacker News가 본 16 GPU Autoresearch, 무엇이 정말 달라졌나

SkyPilot는 Claude Code가 8시간 동안 약 910개의 autoresearch 실험을 돌렸다고 설명했고, Hacker News는 진짜 돌파구가 에이전트 전략인지 인프라인지, 혹은 둘 다인지에 주목했다.

#llm #gpus #agents

AI Mar 17, 2026 2 min read

Google, 유럽 AI 역량 강화에 $30 million 추가… AI Works for Europe 출범

Google은 AI Works for Europe를 발표하고 Google.org European AI Opportunity Fund에 $30 million을 추가 투입한다고 밝혔다. 이 initiative는 worker training, university partnership, ten European languages 기반 certificate rollout을 함께 묶는다.

#google #europe #ai-skills

AI Reddit Mar 17, 2026 1 min read

r/MachineLearning: preflight, label leakage와 NaN을 학습 전에 막는 PyTorch pre-training validator

2026년 3월 15일 r/MachineLearning에서는 preflight 소개 글이 56 points와 13 comments를 기록했다. 이 lightweight CLI는 PyTorch training 전에 label leakage, NaN, channel ordering, dead gradients, class imbalance, VRAM risk 등 10개 항목을 검사한다.

#pytorch #mlops #data-validation

AI Reddit Feb 23, 2026 1 min read

샘 알트만: "AI 학습 에너지? 인간 교육에도 20년과 엄청난 에너지가 든다"

OpenAI CEO 샘 알트만이 AI 모델 학습에 드는 에너지 비용 비판에 대해 인간 교육의 에너지 비용과 비교하며 반박했다. 그는 인간도 지능을 갖추기까지 20년과 그 기간의 모든 음식 에너지가 필요하다고 말했다.

#openai #sam-altman #energy

AI Reddit Feb 20, 2026 1 min read

r/MachineLearning: 2025년 ML 대회 350+건 분석에서 드러난 실전 트렌드

r/MachineLearning 인기 글에서 2025년 ML 대회 생태계를 정리했다. 작성자는 약 400개 대회를 추적하고 73개 우승 솔루션 정보를 수집했으며, Qwen 계열·vLLM·Unsloth·대규모 GPU 사용 증가 등을 핵심 변화로 제시했다.

#machine-learning #competitions #kaggle