r/MachineLearning: 2025년 ML 대회 350+건 분석에서 드러난 실전 트렌드
Original: [R] Analysis of 350+ ML competitions in 2025 View original →
커뮤니티에서 나온 데이터 기반 회고
r/MachineLearning의 인기 글(source)은 2025년 ML 대회 흐름을 대규모로 정리한 자료를 공유했다. 글 작성자는 mlcontests.com 운영자로, Kaggle·AIcrowd·Zindi·Codabench·Tianchi 등 여러 플랫폼을 합쳐 약 400개 대회를 추적했고, 그중 73개 대회의 1위 솔루션 정보를 정리했다고 밝혔다.
단일 플랫폼 체감이 아니라 다중 플랫폼 표본을 바탕으로 한다는 점에서 실무자에게 유용한 관찰이 많다. 특히 “어떤 모델/도구가 실제 우승 솔루션에 채택됐는가”라는 관점이 연구 벤치마크와 다른 신호를 제공한다.
게시글이 제시한 주요 포인트
- 표 형태(tabular) 문제: GBDT(XGBoost/LightGBM/CatBoost)가 여전히 강하지만, AutoGluon·TabPFN·TabM 같은 변화 신호가 관측됨
- 연산 자원: 상위권 일부 팀은 매우 큰 GPU 예산을 사용했으며, 반대로 무료 컴퓨트로도 상위 성과 사례가 존재
- 텍스트/추론: 우승 솔루션에서 Qwen2.5/Qwen3 활용 비중이 높고, BERT류 비중은 감소
- 효율화 도구: vLLM(추론), Unsloth(파인튜닝), LoRA 및 full fine-tuning 선택이 문제 유형/자원에 따라 분화
- 비전/오디오: 비전에서는 Transformer 계열 우세 신호, 음성 대회에서는 Whisper 파인튜닝 사례 다수
실무자가 읽어야 할 이유
대회는 제품 환경과 1:1로 같지 않지만, 도구 선택의 선행 지표 역할을 자주 한다. 이 글은 “무엇이 이론적으로 좋다”보다 “무엇이 실제로 이겼다”를 보여준다는 점에서 가치가 있다. 동시에 고비용 솔루션 증가와 저비용 고효율 사례가 공존한다는 사실은, 팀마다 최적 전략이 다름을 시사한다.
정리하면 이번 Reddit 포스트는 2025년 경쟁 환경에서의 모델/툴 체인 변화를 한 번에 파악할 수 있는 실전형 레퍼런스다.
Source links: Reddit post, Full report link shared by OP
Related Articles
상태를 들고 다니지 않는 optimizer라는 약속은 강했지만, r/MachineLearning 반응은 늘 그렇듯 명확했다. 업데이트 규칙을 보여주고, 시드를 늘리고, 더 어려운 과제로 오라는 요구다.
중요한 점은 model launch의 성패가 가중치보다 serving과 training 지원에서 갈린다는 데 있다. LMSYS는 Day-0 stack이 B200에서 199 tok/s, H200에서 266 tok/s를 기록했고 900K context에서도 흐름이 유지된다고 적었다.
r/artificial 링크 포스트는 100 nonsense prompts와 3-judge panel을 사용하는 BullshitBench v2를 다시 주목하게 했다. 현재 공개 leaderboard에서는 Claude Sonnet 4.6 high reasoning이 91% green rate와 3% red rate로 1위에 올라 있지만, community benchmark라는 점은 함께 읽어야 한다.
Comments (0)
No comments yet. Be the first to comment!