AIBuildAI, MLE-Bench 63.1%로 AI model 제작 자동화를 겨냥

AIBuildAI가 흥미로운 이유는 agent 연구의 초점이 단순 code 생성에서 AI model 개발 workflow 전체로 이동하고 있음을 보여주기 때문이다. Ruiyi Zhang, Peijia Qin, Qi Cao, Li Zhang, Pengtao Xie는 2026년 4월 15일 22:17:05 UTC에 제출된 arXiv paper에서 task description과 training data만으로 AI model을 만드는 hierarchical agent를 제시했다.

구조는 역할을 분명히 나눈다. manager agent가 전체 흐름을 조율하고, designer는 modeling strategy를 고르며, coder는 구현과 debugging을 맡고, tuner는 training과 성능 개선을 담당한다. 논문은 이를 기존 AutoML보다 넓은 문제로 본다. AutoML이 hyperparameter나 model selection처럼 pipeline의 일부를 최적화했다면, AIBuildAI는 architecture 선택부터 deployable model에 가까운 결과물까지 더 긴 생명주기를 다루려 한다.

가장 눈에 띄는 수치는 benchmark다. AIBuildAI는 visual, textual, time-series, tabular modality를 포함한 Kaggle-style task benchmark인 MLE-Bench에서 63.1% medal rate를 기록했다고 보고했다. 저자들은 이 결과가 기존 baseline methods를 앞서며, 해당 benchmark에서는 highly experienced AI engineers의 capability와 맞닿아 있다고 설명한다.

실무적으로 보면 agent benchmark가 code correctness만이 아니라 production loop 전체를 재기 시작했다는 뜻이다. 이런 system을 검토하는 team은 생성된 training script, data handling, metric selection, model documentation을 human ML work와 같은 수준의 의심으로 점검해야 한다.

물론 이것이 AI model 제작이 완전히 자동화됐다는 뜻은 아니다. 지금은 fresh preprint 단계이며, 독립적인 재현, 비용 분석, 실패 사례 공개가 따라와야 한다. 그래도 이 paper의 의미는 작지 않다. 실제 ML engineering에서 어려운 부분은 code 한 조각이 아니라 무엇을 만들지 정하고, 오류를 고치고, training run을 반복하고, 결과를 검증하는 과정이다. 그 loop가 안정화된다면 AI team의 병목은 모든 model을 손으로 만드는 일에서 task specification, assumption 검토, 결과 감사로 이동할 수 있다.

AIBuildAI, MLE-Bench 63.1%로 AI model 제작 자동화를 겨냥

Related Articles

SWE-bench 순위도 흔들린 25.7% 결함, 벤치마크 감사 도구 등장

Gemini 3.5 Flash GA, Google Search까지 agent 표면으로 확장

Opus 4.8, GDPval-AA에서 GPT-5.5보다 121점 앞선 첫 외부 벤치마크

Comments (0)

Leave a Comment