AIBuildAI, MLE-Bench 63.1%로 AI model 제작 자동화를 겨냥
Original: AIBuildAI: An AI Agent for Automatically Building AI Models View original →
AIBuildAI가 흥미로운 이유는 agent 연구의 초점이 단순 code 생성에서 AI model 개발 workflow 전체로 이동하고 있음을 보여주기 때문이다. Ruiyi Zhang, Peijia Qin, Qi Cao, Li Zhang, Pengtao Xie는 2026년 4월 15일 22:17:05 UTC에 제출된 arXiv paper에서 task description과 training data만으로 AI model을 만드는 hierarchical agent를 제시했다.
구조는 역할을 분명히 나눈다. manager agent가 전체 흐름을 조율하고, designer는 modeling strategy를 고르며, coder는 구현과 debugging을 맡고, tuner는 training과 성능 개선을 담당한다. 논문은 이를 기존 AutoML보다 넓은 문제로 본다. AutoML이 hyperparameter나 model selection처럼 pipeline의 일부를 최적화했다면, AIBuildAI는 architecture 선택부터 deployable model에 가까운 결과물까지 더 긴 생명주기를 다루려 한다.
가장 눈에 띄는 수치는 benchmark다. AIBuildAI는 visual, textual, time-series, tabular modality를 포함한 Kaggle-style task benchmark인 MLE-Bench에서 63.1% medal rate를 기록했다고 보고했다. 저자들은 이 결과가 기존 baseline methods를 앞서며, 해당 benchmark에서는 highly experienced AI engineers의 capability와 맞닿아 있다고 설명한다.
실무적으로 보면 agent benchmark가 code correctness만이 아니라 production loop 전체를 재기 시작했다는 뜻이다. 이런 system을 검토하는 team은 생성된 training script, data handling, metric selection, model documentation을 human ML work와 같은 수준의 의심으로 점검해야 한다.
물론 이것이 AI model 제작이 완전히 자동화됐다는 뜻은 아니다. 지금은 fresh preprint 단계이며, 독립적인 재현, 비용 분석, 실패 사례 공개가 따라와야 한다. 그래도 이 paper의 의미는 작지 않다. 실제 ML engineering에서 어려운 부분은 code 한 조각이 아니라 무엇을 만들지 정하고, 오류를 고치고, training run을 반복하고, 결과를 검증하는 과정이다. 그 loop가 안정화된다면 AI team의 병목은 모든 model을 손으로 만드는 일에서 task specification, assumption 검토, 결과 감사로 이동할 수 있다.
Related Articles
벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.
Google I/O 2026의 핵심은 Gemini를 앱 안의 챗봇보다 넓은 실행 계층으로 밀어 올리는 흐름이다. Gemini 3.5 Flash는 API와 Antigravity, Search, Gemini app에 풀렸고, Gemini Omni는 video 생성과 편집을 전면에 세웠다.
Claude Opus 4.8의 강점이 코딩 벤치마크를 넘어 실제 업무형 에이전트 평가로 확장됐다. Artificial Analysis는 max effort 기준 1890점을 기록해 GPT-5.5 xhigh보다 121점 앞섰다고 밝혔다.
Comments (0)
No comments yet. Be the first to comment!