AIBuildAI、MLE-Bench 63.1%でAI model作成の自動化に迫る
Original: AIBuildAI: An AI Agent for Automatically Building AI Models View original →
AIBuildAIが示しているのは、agent研究の焦点がcode片の生成からAI model開発そのものへ広がっていることだ。Ruiyi Zhang、Peijia Qin、Qi Cao、Li Zhang、Pengtao Xieは、2026年4月15日22:17:05 UTCに提出されたarXiv paperで、task descriptionとtraining dataからAI modelを自動構築するhierarchical agentを示した。
仕組みは役割分担を前面に出す。manager agentが全体を調整し、designerがmodeling strategyを決め、coderが実装とdebuggingを担い、tunerがtrainingと性能改善を進める。論文はこれを従来のAutoMLより広い問題として位置づけている。AutoMLがhyperparameter optimizationやmodel selectionなどpipelineの一部に寄りがちだったのに対し、AIBuildAIはarchitecture選択からdeployable modelに近い成果物までを扱う。
注目すべき数字はbenchmark結果だ。AIBuildAIは、visual、textual、time-series、tabularの各modalityを含むKaggle-style task benchmarkであるMLE-Benchで、63.1%のmedal rateを記録したと報告している。著者らは、この結果が既存のbaseline methodsを上回り、このbenchmark上ではhighly experienced AI engineersのcapabilityに並ぶと説明している。
実務上の読み方は、agent benchmarkがcode correctnessだけでなくproduction loop全体を測り始めたということだ。この種のsystemを評価するteamは、生成されたtraining script、data handling、metric selection、model documentationを、人間のML workと同じ目線で疑って確認する必要がある。
とはいえ、AI model作成がこれで解決したわけではない。現時点ではfresh preprintであり、独立した再現、cost analysis、failure modeの検証が必要だ。それでも意味はある。実際のML engineeringで難しいのは、単発のcode生成よりも、何を作るかを決め、失敗を修正し、training runを回し、結果を検証する一連の流れだからだ。このloopが安定すれば、AI teamのボトルネックは手作業でmodelを組むことから、task specification、assumptionの確認、生成されたsystemのauditへ移っていく。
Related Articles
モデル順位表の弱点は、モデルではなく問題側にあるかもしれない。新しいarXiv論文は、評価タスクの25.7%以上に重大な問題を見つけ、欠陥タスクを除くとSWE-bench Verifiedの平均性能が9.9%動くと報告した。
Google I/O 2026の焦点は、Geminiを単独アプリではなく実行レイヤーとして広げることにある。Gemini 3.5 FlashはAPI、Antigravity、Android Studio、Search、Gemini appへ広がり、Gemini Omni Flashはvideo生成を同じ流れに乗せる。
Claude Opus 4.8の初期評価は、コーディングだけでなく実務型エージェント作業に広がっている。Artificial AnalysisはGDPval-AAで1890点、GPT-5.5 xhighを121点上回ったとした。
Comments (0)
No comments yet. Be the first to comment!