AIBuildAI、MLE-Bench 63.1%でAI model作成の自動化に迫る
Original: AIBuildAI: An AI Agent for Automatically Building AI Models View original →
AIBuildAIが示しているのは、agent研究の焦点がcode片の生成からAI model開発そのものへ広がっていることだ。Ruiyi Zhang、Peijia Qin、Qi Cao、Li Zhang、Pengtao Xieは、2026年4月15日22:17:05 UTCに提出されたarXiv paperで、task descriptionとtraining dataからAI modelを自動構築するhierarchical agentを示した。
仕組みは役割分担を前面に出す。manager agentが全体を調整し、designerがmodeling strategyを決め、coderが実装とdebuggingを担い、tunerがtrainingと性能改善を進める。論文はこれを従来のAutoMLより広い問題として位置づけている。AutoMLがhyperparameter optimizationやmodel selectionなどpipelineの一部に寄りがちだったのに対し、AIBuildAIはarchitecture選択からdeployable modelに近い成果物までを扱う。
注目すべき数字はbenchmark結果だ。AIBuildAIは、visual、textual、time-series、tabularの各modalityを含むKaggle-style task benchmarkであるMLE-Benchで、63.1%のmedal rateを記録したと報告している。著者らは、この結果が既存のbaseline methodsを上回り、このbenchmark上ではhighly experienced AI engineersのcapabilityに並ぶと説明している。
実務上の読み方は、agent benchmarkがcode correctnessだけでなくproduction loop全体を測り始めたということだ。この種のsystemを評価するteamは、生成されたtraining script、data handling、metric selection、model documentationを、人間のML workと同じ目線で疑って確認する必要がある。
とはいえ、AI model作成がこれで解決したわけではない。現時点ではfresh preprintであり、独立した再現、cost analysis、failure modeの検証が必要だ。それでも意味はある。実際のML engineeringで難しいのは、単発のcode生成よりも、何を作るかを決め、失敗を修正し、training runを回し、結果を検証する一連の流れだからだ。このloopが安定すれば、AI teamのボトルネックは手作業でmodelを組むことから、task specification、assumptionの確認、生成されたsystemのauditへ移っていく。
Related Articles
HWE-BenchはLLM agent評価を小さなHDL taskからrepository-scaleのhardware repairへ移した。最高agentは全体で70.7%を解いたが、複雑なSoC-level projectでは65%未満に落ちた。
IBM ResearchのVAKRAはagent評価をstatic Q&Aからexecutable tool environmentへ移した。62 domains、8,000+ locally hosted APIs、3-7 step reasoning chainsを含み、surface-level tool useとenterprise agent reliabilityの差を示している。
Cloudflareは2026年3月19日、Workers AI に Moonshot AI の Kimi K2.5 を追加して large-model tier に入った。durable agent execution、large-context inference、lower-cost open model deployment を 1 つの stack にまとめる戦略が中心だ。
Comments (0)
No comments yet. Be the first to comment!