AIBuildAI、MLE-Bench 63.1%でAI model作成の自動化に迫る

AIBuildAIが示しているのは、agent研究の焦点がcode片の生成からAI model開発そのものへ広がっていることだ。Ruiyi Zhang、Peijia Qin、Qi Cao、Li Zhang、Pengtao Xieは、2026年4月15日22:17:05 UTCに提出されたarXiv paperで、task descriptionとtraining dataからAI modelを自動構築するhierarchical agentを示した。

仕組みは役割分担を前面に出す。manager agentが全体を調整し、designerがmodeling strategyを決め、coderが実装とdebuggingを担い、tunerがtrainingと性能改善を進める。論文はこれを従来のAutoMLより広い問題として位置づけている。AutoMLがhyperparameter optimizationやmodel selectionなどpipelineの一部に寄りがちだったのに対し、AIBuildAIはarchitecture選択からdeployable modelに近い成果物までを扱う。

注目すべき数字はbenchmark結果だ。AIBuildAIは、visual、textual、time-series、tabularの各modalityを含むKaggle-style task benchmarkであるMLE-Benchで、63.1%のmedal rateを記録したと報告している。著者らは、この結果が既存のbaseline methodsを上回り、このbenchmark上ではhighly experienced AI engineersのcapabilityに並ぶと説明している。

実務上の読み方は、agent benchmarkがcode correctnessだけでなくproduction loop全体を測り始めたということだ。この種のsystemを評価するteamは、生成されたtraining script、data handling、metric selection、model documentationを、人間のML workと同じ目線で疑って確認する必要がある。

とはいえ、AI model作成がこれで解決したわけではない。現時点ではfresh preprintであり、独立した再現、cost analysis、failure modeの検証が必要だ。それでも意味はある。実際のML engineeringで難しいのは、単発のcode生成よりも、何を作るかを決め、失敗を修正し、training runを回し、結果を検証する一連の流れだからだ。このloopが安定すれば、AI teamのボトルネックは手作業でmodelを組むことから、task specification、assumptionの確認、生成されたsystemのauditへ移っていく。

AIBuildAI、MLE-Bench 63.1%でAI model作成の自動化に迫る

Related Articles

SWE-bench順位も動く25.7%の欠陥、ベンチマーク監査が論点に

Gemini 3.5 FlashがGA、Search自体がagent入口へ変化

Opus 4.8、GDPval-AAでGPT-5.5を121点上回る外部評価

Comments (0)

Leave a Comment