LLM Mar 25, 2026 1 min read
Microsoft Researchは、長いagent trajectoryの中で最初のcritical failure stepを見つけるAgentRxを公開した。115件のfailed trajectory benchmarkとnine-category taxonomyも同時に公開し、failure localizationとroot-cause attributionの改善値を示している。
Microsoft Researchは、長いagent trajectoryの中で最初のcritical failure stepを見つけるAgentRxを公開した。115件のfailed trajectory benchmarkとnine-category taxonomyも同時に公開し、failure localizationとroot-cause attributionの改善値を示している。